Thử nghiệm được thực hiện trên 1233 bài viết Netnews (với tiêu đề gỡ bỏ) và so sánh với nhau cho chồng chéo lên nhau. Các kết quả trùng nhau được so sánh với các giá trị cho COPS và sử dụng một kỹ thuật IR tiêu chuẩn. Các giá trị trùng nhau được so sánh với các văn bản bằng tay kiểm tra để xác định các trường hợp 1) Đạo văn, 2) tập hợp con 3) Sao chép và 4) liên quan. Các văn bản có thể rơi vào nhiều hơn một lớp. Các giá trị trùng nhau được so sánh với kết quả của con người được đánh giá và kết quả cho thấy SCAM làm việc tốt hơn so với phương pháp IR để tách cặp tài liệu và đã có một số lượng thấp dương tính giả (những văn bản đó đang ăn cắp ý tưởng nhưng không được phát hiện bởi hệ thống). SCAM cũng thực hiện tốt hơn so với COPS trong việc phát hiện chồng chéo mặc dù trong một số trường hợp, các số dương tính giả cho SCAM cao hơn cho COPS.
3.6.7 KIỂM TRA Những ví dụ cuối cùng của một công cụ phát hiện đạo văn là một hệ thống tài liệu phát hiện đạo văn gọi KIỂM TRA (42). Tương tự như hệ thống phát hiện bản sao trước đó, KIỂM TRA duy trì một cơ sở dữ liệu của hồ sơ đăng ký được sử dụng để so sánh với một tài liệu mới. Tuy nhiên, KIỂM TRA là khác nhau trong đó hai vấn đề được giải quyết:
1) Với các hệ thống trước đó, rất nhiều thời gian và so sánh không cần thiết được thực hiện giữa các tài liệu đó sẽ không phải là nguồn của đạo văn vì sự khác biệt về nội dung, 2) An ninh phát hiện sao chép trước hệ thống là yếu vì những thay đổi nhỏ có thể được thực hiện cho mỗi câu để theo vượt qua cơ chế phát hiện.
KIỂM TRA bất thường ở chỗ Information Retrieval (IR) kỹ thuật được áp dụng đầu tiên để lọc ra các ứng cử viên có khả năng đạo văn. Quá trình IR này được áp dụng đệ quy trên cấp độ khác nhau của granularity từ phần, phần phụ, đoạn văn để cuối cùng câu. So sánh giữa các tài liệu dựa trên các từ khóa được cho là để xác định ý nghĩa ngữ nghĩa của tài liệu.
Các tác giả của SÉC cũng nhận ra sự khác biệt giữa so sánh đạo văn của ngôn ngữ tự nhiên và lập trình (42). Họ nhận xét rằng chương trình máy tính được cấu trúc tốt và giữ gìn parse tree của chương trình gốc thậm chí chỉnh sửa. Tuy nhiên, đạo văn trong văn bản bằng văn bản là khó khăn hơn nhiều như là một tài liệu có thể bảo toàn ngữ nghĩa của bản gốc, nhưng trải qua nhiều thay đổi hơn một chương trình máy tính (tức là cây phân tích cú pháp được thay đổi).
đang được dịch, vui lòng đợi..