The documents are broken into sente

The documents are broken into sentences (called units) and these are further grouped together in sequences of sentences called chunks. The sentences are stored in a registration server that is simply a large hash table using a “standard” hashing algorithm. The document chunks are compared with those of other documents in the repository to check for overlap. If the documents share a pre-set number of sentences then a violation is flagged. A human then looks at the violation to determine the problem.
The system has much in common with Siff, a program designed by Udi Manber for finding similar files in a file system (28). Manber’s technique involves selecting a few words as “anchor” points and then computing checksums of a following window of characters for comparison.
The possible violations that can occur between documents include plagiarism of a few sentences, exact replication of the document, and stages in between. Brin, Davis and Garcia-Molina (6) admit that plagiarism is particularly difficult to test for and would require human decision. COPS implements Ordinary Operational Tasks (OOTs) to carry out tests for plagiarism, subset and overlap that can be implemented efficiently.
Preliminary testing of COPS used 92 Latex, DVI and ASCII technical documents consisting of approximately 7300 words and 450 sentences. The documents formed 9 topical sets and the results showed that COPS managed to cluster most of the documents correctly, although discrepancies were found with sentences that were common to all documents. The authors provide improvements to lessen the extent of the problems.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Các tài liệu được chia thành các câu (được gọi là đơn vị) và đây tiếp tục được nhóm lại với nhau trong chuỗi câu được gọi là khối. Các câu được lưu trữ trong một máy chủ đăng ký là chỉ đơn giản là một bảng băm lớn bằng cách sử dụng một "tiêu chuẩn" hashing thuật toán. Khối tài liệu được so sánh với những người khác tài liệu trong kho lưu trữ để kiểm tra cho chồng chéo. Nếu các tài liệu chia sẻ một số định trước các câu sau đó một sự vi phạm được đánh dấu. Một con người sau đó nhìn vào hành vi vi phạm để xác định vấn đề.Hệ thống có nhiều điểm chung với Siff, một chương trình được thiết kế bởi Udi Manber cho việc tìm kiếm tập tin tương tự trong một hệ thống tập tin (28). Manber của kỹ thuật liên quan đến việc lựa chọn một vài từ như "neo" điểm và sau đó máy tính khả của một cửa sổ sau đây của các ký tự để so sánh.Các hành vi vi phạm có thể có thể xảy ra giữa các tài liệu bao gồm đạo văn của một vài câu, các bản sao chính xác của tài liệu, và giai đoạn ở giữa. Brin, Davis và Garcia-Molina (6) thừa nhận rằng đạo văn là đặc biệt khó khăn để kiểm tra và sẽ yêu cầu các quyết định của con người. Cảnh sát thực hiện nhiệm vụ hoạt động bình thường (OOTs) để thực hiện các xét nghiệm cho đạo văn, tập hợp con và chồng chéo lên nhau mà có thể được thực hiện hiệu quả.Kiểm tra sơ bộ của cảnh sát sử dụng 92 cao su, DVI và ASCII tài liệu kỹ thuật bao gồm khoảng 7300 từ và 450 câu. Các tài liệu thành lập 9 bộ tại chỗ và kết quả cho thấy rằng cảnh sát quản lý để cụm hầu hết các tài liệu chính xác, mặc dù sự khác biệt được tìm thấy ở câu được phổ biến cho tất cả tài liệu. Các tác giả cung cấp các cải tiến để làm giảm mức độ của các vấn đề.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Các tài liệu được chia thành các câu (gọi là đơn vị) và chúng được tiếp tục nhóm lại với nhau trong các trình tự của câu được gọi là khối. Các câu được lưu trữ trong một máy chủ đăng ký mà chỉ đơn giản là một bảng băm lớn sử dụng một "tiêu chuẩn" băm thuật toán. Các khối tài liệu được so sánh với các tài liệu khác trong kho để kiểm tra chồng chéo lên nhau. Nếu các tài liệu chia sẻ một số thiết lập sẵn các câu sau đó là một hành vi vi phạm có gắn cờ. Một con người sau đó nhìn vào các vi phạm để xác định các vấn đề.
Hệ thống này có nhiều điểm chung với Siff, một chương trình được thiết kế bởi Udi Manber cho việc tìm kiếm các tập tin tương tự như trong một hệ thống tập tin (28). Kỹ thuật Manber của liên quan đến việc lựa chọn một vài từ như "neo" điểm và sau đó tính toán tổng kiểm tra của một cửa sổ tự sau đây để so sánh.
Các hành vi vi phạm có thể là có thể xảy ra giữa các tài liệu bao gồm đạo văn của một vài câu, bản sao chính xác của các tài liệu, và các giai đoạn ở giữa . Brin, Davis và Garcia-Molina (6) thừa nhận rằng đạo văn là đặc biệt khó khăn để kiểm tra và sẽ đòi hỏi quyết định của con người. COPS thực hiện nhiệm vụ hoạt động thông thường (OOTs) để thực hiện các bài kiểm tra cho đạo văn, tập hợp con và chồng chéo mà có thể được thực hiện một cách hiệu quả.
kiểm tra sơ bộ của COPS sử dụng 92 Latex, tài liệu kỹ thuật DVI và ASCII gồm khoảng 7300 từ và 450 câu. Các tài liệu được hình thành 9 bộ chuyên đề và kết quả cho thấy rằng COPS quản lý cluster hầu hết các tài liệu chuẩn xác, mặc dù sự khác biệt được tìm thấy với câu đó là chung cho tất cả các tài liệu. Các tác giả cung cấp những cải tiến để làm giảm bớt mức độ của vấn đề.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.