3.6.6 SCAM SCAM (Stanford Sao chép Phân tích cơ chế) được phát triển từ những kinh nghiệm thu được từ việc xây dựng COPS bởi Narayanan Shivakumar và Hector Garcia-Molina - (40) và (41). Hệ thống được thiết kế để phát hiện đạo văn, bản, chiết xuất và các văn bản mạnh mẽ tương tự như trong các thư viện kỹ thuật số. Mục tiêu chính cho việc xây dựng hệ thống đã được như một phương pháp để hỗ trợ bản quyền của các tài liệu được lưu trữ trong một thư viện để phát hiện các trường hợp sao chép trái phép. SCAM đến thành tâm điểm chú ý trong năm 1995 khi hệ thống báo cáo chính xác 13 trường hợp có thể đạo văn (có xác nhận của tác giả ban đầu) của một nhà nghiên cứu học tập ban đầu gây ra bởi sự tương đồng trong một trình hội nghị EURO PAR 95 (10).
Sự khác biệt chính của SCAM từ COPS là SCAM là một chương trình soạn thảo văn bản trên, trong khi COPS được câu trên. Vấn đề với chỉ đơn giản là so sánh câu là chồng chéo câu một phần không được phát hiện. Vấn đề hơn nữa của COPS bao gồm phát hiện câu với những con số, phương trình và chữ viết tắt khó hiểu hệ thống và kiểm tra chồng chéo lên nhau liên quan đến việc nhiều đầu dò ngẫu nhiên vào bảng băm gây ra một vấn đề hiệu quả.
Thử nghiệm được thực hiện trên 1233 bài viết Netnews (với tiêu đề gỡ bỏ) và so sánh với nhau cho chồng chéo lên nhau. Các kết quả trùng nhau được so sánh với các giá trị cho COPS và sử dụng một kỹ thuật IR tiêu chuẩn. Các giá trị trùng nhau được so sánh với các văn bản bằng tay kiểm tra để xác định các trường hợp 1) Đạo văn, 2) tập hợp con 3) Sao chép và 4) liên quan. Các văn bản có thể rơi vào nhiều hơn một lớp. Các giá trị trùng nhau được so sánh với kết quả của con người được đánh giá và kết quả cho thấy SCAM làm việc tốt hơn so với phương pháp IR để tách cặp tài liệu và đã có một số lượng thấp dương tính giả (những văn bản đó đang ăn cắp ý tưởng nhưng không được phát hiện bởi hệ thống). SCAM cũng thực hiện tốt hơn so với COPS trong việc phát hiện chồng chéo mặc dù trong một số trường hợp, các số dương tính giả cho SCAM cao hơn cho COPS.
3.6.7 KIỂM TRA Những ví dụ cuối cùng của một công cụ phát hiện đạo văn là một hệ thống tài liệu phát hiện đạo văn gọi KIỂM TRA (42). Tương tự như hệ thống phát hiện bản sao trước đó, KIỂM TRA duy trì một cơ sở dữ liệu của hồ sơ đăng ký được sử dụng để so sánh với một tài liệu mới. Tuy nhiên, KIỂM TRA là khác nhau trong đó hai vấn đề được giải quyết:
1) Với các hệ thống trước đó, rất nhiều thời gian và so sánh không cần thiết được thực hiện giữa các tài liệu đó sẽ không phải là nguồn của đạo văn vì sự khác biệt về nội dung, 2) An ninh phát hiện sao chép trước hệ thống là yếu vì những thay đổi nhỏ có thể được thực hiện cho mỗi câu để theo vượt qua cơ chế phát hiện.
KIỂM TRA bất thường ở chỗ Information Retrieval (IR) kỹ thuật được áp dụng đầu tiên để lọc ra các ứng cử viên có khả năng đạo văn. Quá trình IR này được áp dụng đệ quy trên cấp độ khác nhau của granularity từ phần, phần phụ, đoạn văn để cuối cùng câu. So sánh giữa các tài liệu dựa trên các từ khóa được cho là để xác định ý nghĩa ngữ nghĩa của tài liệu.
Các tác giả của SÉC cũng nhận ra sự khác biệt giữa so sánh đạo văn của ngôn ngữ tự nhiên và lập trình (42). Họ nhận xét rằng chương trình máy tính được cấu trúc tốt và giữ gìn parse tree của chương trình gốc thậm chí chỉnh sửa. Tuy nhiên, đạo văn trong văn bản bằng văn bản là khó khăn hơn nhiều như là một tài liệu có thể bảo toàn ngữ nghĩa của bản gốc, nhưng trải qua nhiều thay đổi hơn một chương trình máy tính (tức là cây phân tích cú pháp được thay đổi).
đang được dịch, vui lòng đợi..
