Các tài liệu được chia thành các câu (gọi là đơn vị) và chúng được tiếp tục nhóm lại với nhau trong các trình tự của câu được gọi là khối. Các câu được lưu trữ trong một máy chủ đăng ký mà chỉ đơn giản là một bảng băm lớn sử dụng một "tiêu chuẩn" băm thuật toán. Các khối tài liệu được so sánh với các tài liệu khác trong kho để kiểm tra chồng chéo lên nhau. Nếu các tài liệu chia sẻ một số thiết lập sẵn các câu sau đó là một hành vi vi phạm có gắn cờ. Một con người sau đó nhìn vào các vi phạm để xác định các vấn đề.
Hệ thống này có nhiều điểm chung với Siff, một chương trình được thiết kế bởi Udi Manber cho việc tìm kiếm các tập tin tương tự như trong một hệ thống tập tin (28). Kỹ thuật Manber của liên quan đến việc lựa chọn một vài từ như "neo" điểm và sau đó tính toán tổng kiểm tra của một cửa sổ tự sau đây để so sánh.
Các hành vi vi phạm có thể là có thể xảy ra giữa các tài liệu bao gồm đạo văn của một vài câu, bản sao chính xác của các tài liệu, và các giai đoạn ở giữa . Brin, Davis và Garcia-Molina (6) thừa nhận rằng đạo văn là đặc biệt khó khăn để kiểm tra và sẽ đòi hỏi quyết định của con người. COPS thực hiện nhiệm vụ hoạt động thông thường (OOTs) để thực hiện các bài kiểm tra cho đạo văn, tập hợp con và chồng chéo mà có thể được thực hiện một cách hiệu quả.
kiểm tra sơ bộ của COPS sử dụng 92 Latex, tài liệu kỹ thuật DVI và ASCII gồm khoảng 7300 từ và 450 câu. Các tài liệu được hình thành 9 bộ chuyên đề và kết quả cho thấy rằng COPS quản lý cluster hầu hết các tài liệu chuẩn xác, mặc dù sự khác biệt được tìm thấy với câu đó là chung cho tất cả các tài liệu. Các tác giả cung cấp những cải tiến để làm giảm bớt mức độ của vấn đề.
đang được dịch, vui lòng đợi..
