3.6.6 SCAM SCAM (Stanford Sao chép Phân tích cơ chế) được phát triển từ những kinh nghiệm thu được từ việc xây dựng COPS bởi Narayanan Shivakumar và Hector Garcia-Molina - (40) và (41). Hệ thống được thiết kế để phát hiện đạo văn, bản, chiết xuất và các văn bản mạnh mẽ tương tự như trong các thư viện kỹ thuật số. Mục tiêu chính cho việc xây dựng hệ thống đã được như một phương pháp để hỗ trợ bản quyền của các tài liệu được lưu trữ trong một thư viện để phát hiện các trường hợp sao chép trái phép. SCAM đến thành tâm điểm chú ý trong năm 1995 khi hệ thống báo cáo chính xác 13 trường hợp có thể đạo văn (có xác nhận của tác giả ban đầu) của một nhà nghiên cứu học tập ban đầu gây ra bởi sự tương đồng trong một trình hội nghị EURO PAR 95 (10).
Sự khác biệt chính của SCAM từ COPS là SCAM là một chương trình soạn thảo văn bản trên, trong khi COPS được câu trên. Vấn đề với chỉ đơn giản là so sánh câu là chồng chéo câu một phần không được phát hiện. Vấn đề hơn nữa của COPS bao gồm phát hiện câu với những con số, phương trình và chữ viết tắt khó hiểu hệ thống và kiểm tra chồng chéo liên quan đến nhiều đầu dò ngẫu nhiên vào bảng băm gây ra một vấn đề hiệu quả.
Các tài liệu được chia thành các từ (đơn vị) và chúng được nhóm lại để tạo thành khối. Các khối được đưa vào kho lưu trữ trong một cơ cấu chỉ số ngược và được sử dụng để so sánh với lượng khách tài liệu mới (xem hình 6). SCAM sử dụng những từ như khối để so sánh cho phép hệ thống để phát hiện một phần bản án chồng lên nhau. SCAM sử dụng một dẫn xuất của Vector-Space mẫu để đo sự tương đồng giữa các tài liệu. Đây là một kỹ thuật phổ biến IR và hoạt động bằng cách lưu trữ các tần số bình thường của từ này trong văn như là một vector. Các vectơ sau đó được so sánh với giống nhau bằng cách sử dụng một biện pháp chẳng hạn như các sản phẩm vector dấu chấm hoặc đo cosine tương đồng và một giá trị kết quả, nếu vượt quá một ngưỡng xác định trước, có gắn cờ. Vấn đề với cả hai phương pháp được đưa ra trong (41) đã dẫn đến sự phát triển của một biện pháp tương tự mới được gọi là tương đối Tần Model (RFM).
Các RFM sử dụng các tần số tương đối của các từ như các chỉ số sử dụng nhiều từ tương tự và kết hợp với các biện pháp tương tự cosin . Ban đầu một tập gần gũi được định nghĩa mà chỉ ra tất cả những từ có một số lượng tương tự xảy ra trong hai tài liệu. Tập hợp này được sử dụng trong các biện pháp cho một bài kiểm tra tập hợp xác định liệu D1 là một tập hợp con của D2. Bài kiểm tra là bất đối xứng do đó các bộ tương tự là giá trị tối đa của các tập hợp con của D1 so với D2 và giá trị tập hợp con của D2 so với D1.
đang được dịch, vui lòng đợi..