3.6.6 SCAM SCAM (Stanford Copy Anal

3.6.6 SCAM SCAM (Stanford Copy Analysis Mechanism) was developed from the experiences gained from building COPS by Narayanan Shivakumar and Hector Garcia-Molina - (40) and (41). The system is designed for detecting plagiarism, copies, extracts and strongly similar documents in digital libraries. The main objective for building the system was as a method for supporting the copyright of documents stored in a library to detect cases of unauthorised copying. SCAM came into the spotlight in 1995 when the system correctly reported 13 cases of possible plagiarism (verified by the original authors) by an academic researcher initially sparked by similarities in a submission to the EURO PAR 95 conference (10).
The main difference of SCAM from COPS is that SCAM is a word-based scheme, whereas COPS was sentence-based. The problem with simply comparing sentences is that partial sentence overlaps are not detected. Further problems of COPS included detecting sentences with figures, equations and abbreviations confusing the system and checking for overlap involved many random probes into the hash table causing an efficiency problem.
Testing was performed on 1233 Netnews articles (with headers removed) and compared against each other for overlap. The overlap results were then compared with values for COPS and using a standard IR technique. The overlap values were then compared with manually examined texts to determine cases of 1) Plagiarism, 2) Subset 3) Copy and 4) Related. The texts could fall into more than one class. The overlap values were then compared with the human judged results and the results indicate that SCAM worked better than IR methods for separating document pairs and had a lower number of false positives (those texts that are plagiarised but are not detected by the system). SCAM also performed better than COPS in detecting overlaps although in some cases the number of false positives for SCAM was higher than for COPS.
3.6.7 CHECK The final example of a plagiarism detection tool is a document plagiarism detection system called CHECK (42). Similar to previous copy detection systems, CHECK maintains a database of registered documents that are used for comparison against a new document. However, CHECK is different in that two problems are addressed:
1) With previous systems, many time-consuming and unnecessary comparisons are made between documents that are unlikely to be sources of plagiarism because of differences of content, 2) Security of previous copy detection systems is weak because minor modifications can be made to each sentence to by-pass the detection mechanisms.
CHECK is unusual in that Information Retrieval (IR) techniques are applied first to filter out likely plagiarism candidates. This IR process is applied recursively on different levels of granularity from sections, subsections, paragraphs to finally sentences. Comparison between documents is based upon keywords that are supposed to identify the semantic meaning of the document.
The authors of CHECK also recognise the differences between comparing plagiarism of natural and programming language (42). They comment that computer programs are well structured and preserve the parse-tree of the original program even if modified. However, plagiarism in written text is much harder as a document can preserve the semantics of the original, but undergo many more changes than a computer program (i.e. the parse tree is changed).

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

3.6.6 SCAM lừa đảo (Stanford bản sao phân tích cơ chế) đã được phát triển từ những kinh nghiệm thu được từ xây dựng cảnh sát bởi Narayanan sơn và Hector Garcia-Molina - (40) và (41). Hệ thống được thiết kế để phát hiện đạo văn, bản sao, chiết xuất và mạnh mẽ tương tự như tài liệu trong thư viện kỹ thuật số. Mục tiêu chính cho xây dựng hệ thống là một phương pháp để hỗ trợ quyền tác giả của tài liệu lưu trữ trong một thư viện để phát hiện các trường hợp của việc sao chép trái phép. Lừa đảo ra sự chú ý vào năm 1995 khi hệ thống một cách chính xác báo cáo các trường hợp 13 của đạo văn có thể (xác minh bởi tác giả gốc) bởi một nhà nghiên cứu học thuật ban đầu gây ra bởi sự tương đồng về một trình hội nghị EURO PAR 95 (10).Sự khác biệt chính của SCAM từ cảnh sát là lừa đảo là một chương trình dựa trên từ, trong khi cảnh sát đã được dựa trên câu. Vấn đề với đơn giản so sánh câu là rằng một phần câu chông không được phát hiện. Các vấn đề hơn nữa của cảnh sát bao gồm phát hiện câu với con số, phương trình và chữ viết tắt khó hiểu hệ thống và kiểm tra cho chồng chéo lên nhau tham gia nhiều đầu dò ngẫu nhiên vào bảng băm gây ra một vấn đề hiệu quả.Thử nghiệm đã được thực hiện trên 1233 máy bài viết (với tiêu đề gỡ bỏ) và so sánh với nhau cho chồng chéo. Kết quả chồng chéo lên nhau sau đó được so sánh với giá trị cho cảnh sát và sử dụng một kỹ thuật IR tiêu chuẩn. Các giá trị chồng chéo sau đó so sánh với các văn bản bằng tay kiểm tra để xác định các trường hợp của 1) đạo văn, 2) tập 3) sao chép và 4) liên quan. Các văn bản có thể rơi vào nhiều hơn một lớp. Các giá trị chồng chéo sau đó so sánh với kết quả đánh giá của con người và các kết quả chỉ ra rằng lừa đảo làm việc tốt hơn so với IR phương pháp để tách cặp tài liệu và có một số thấp hơn của quả dương giả (những văn bản mà được plagiarised nhưng không được phát hiện bởi hệ thống). SCAM cũng thực hiện tốt hơn so với cảnh sát trong việc phát hiện trùng lặp mặc dù trong một số trường hợp số lượng các dương tính giả cho lừa đảo là cao hơn cho cảnh sát.3.6.7 kiểm tra ví dụ cuối cùng của một công cụ phát hiện đạo văn là một hệ thống phát hiện đạo văn tài liệu gọi là phòng (42). Tương tự như hệ thống nhận bản sao trước, Phòng duy trì cơ sở dữ liệu đăng ký các tài liệu được sử dụng để so sánh với một tài liệu mới. Tuy nhiên, kiểm tra là khác nhau trong đó hai vấn đề được giải quyết:1) với hệ thống trước đó, nhiều so sánh tốn thời gian và không cần thiết được thực hiện giữa các tài liệu có thể không phải nguồn của đạo văn bởi những khác biệt của nội dung, 2) bảo mật của hệ thống nhận bản sao trước đó là yếu bởi vì sửa đổi nhỏ có thể được thực hiện cho mỗi câu để by-pass cơ chế phát hiện.Kiểm tra là không bình thường trong đó thông tin tra cứu (IR) kỹ thuật được áp dụng lần đầu tiên để lọc ra các ứng cử viên có khả năng đạo văn. Quá trình này IR là ứng dụng đệ quy trên cấp độ khác nhau của độ chi tiết từ phần, phần phụ, đoạn văn để cuối cùng câu. So sánh giữa các tài liệu dựa trên từ khóa có nghĩa vụ phải xác định ý nghĩa ngữ nghĩa của các tài liệu.Các tác giả của kiểm tra cũng nhận ra sự khác biệt giữa so sánh đạo văn của ngôn ngữ tự nhiên và lập trình (42). Họ bình luận rằng chương trình máy tính có cấu trúc tốt và bảo tồn cây phân tích chương trình ban đầu ngay cả khi lần. Tuy nhiên, đạo văn trong văn bản văn là nhiều hơn như một tài liệu có thể duy trì ngữ nghĩa của bản gốc, nhưng trải qua nhiều thay đổi hơn so với một chương trình máy tính (tức là phân tích cây thay đổi).

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

3.6.6 SCAM SCAM (Stanford Sao chép Phân tích cơ chế) được phát triển từ những kinh nghiệm thu được từ việc xây dựng COPS bởi Narayanan Shivakumar và Hector Garcia-Molina - (40) và (41). Hệ thống được thiết kế để phát hiện đạo văn, bản, chiết xuất và các văn bản mạnh mẽ tương tự như trong các thư viện kỹ thuật số. Mục tiêu chính cho việc xây dựng hệ thống đã được như một phương pháp để hỗ trợ bản quyền của các tài liệu được lưu trữ trong một thư viện để phát hiện các trường hợp sao chép trái phép. SCAM đến thành tâm điểm chú ý trong năm 1995 khi hệ thống báo cáo chính xác 13 trường hợp có thể đạo văn (có xác nhận của tác giả ban đầu) của một nhà nghiên cứu học tập ban đầu gây ra bởi sự tương đồng trong một trình hội nghị EURO PAR 95 (10).
Sự khác biệt chính của SCAM từ COPS là SCAM là một chương trình soạn thảo văn bản trên, trong khi COPS được câu trên. Vấn đề với chỉ đơn giản là so sánh câu là chồng chéo câu một phần không được phát hiện. Vấn đề hơn nữa của COPS bao gồm phát hiện câu với những con số, phương trình và chữ viết tắt khó hiểu hệ thống và kiểm tra chồng chéo lên nhau liên quan đến việc nhiều đầu dò ngẫu nhiên vào bảng băm gây ra một vấn đề hiệu quả.
Thử nghiệm được thực hiện trên 1233 bài viết Netnews (với tiêu đề gỡ bỏ) và so sánh với nhau cho chồng chéo lên nhau. Các kết quả trùng nhau được so sánh với các giá trị cho COPS và sử dụng một kỹ thuật IR tiêu chuẩn. Các giá trị trùng nhau được so sánh với các văn bản bằng tay kiểm tra để xác định các trường hợp 1) Đạo văn, 2) tập hợp con 3) Sao chép và 4) liên quan. Các văn bản có thể rơi vào nhiều hơn một lớp. Các giá trị trùng nhau được so sánh với kết quả của con người được đánh giá và kết quả cho thấy SCAM làm việc tốt hơn so với phương pháp IR để tách cặp tài liệu và đã có một số lượng thấp dương tính giả (những văn bản đó đang ăn cắp ý tưởng nhưng không được phát hiện bởi hệ thống). SCAM cũng thực hiện tốt hơn so với COPS trong việc phát hiện chồng chéo mặc dù trong một số trường hợp, các số dương tính giả cho SCAM cao hơn cho COPS.
3.6.7 KIỂM TRA Những ví dụ cuối cùng của một công cụ phát hiện đạo văn là một hệ thống tài liệu phát hiện đạo văn gọi KIỂM TRA (42). Tương tự như hệ thống phát hiện bản sao trước đó, KIỂM TRA duy trì một cơ sở dữ liệu của hồ sơ đăng ký được sử dụng để so sánh với một tài liệu mới. Tuy nhiên, KIỂM TRA là khác nhau trong đó hai vấn đề được giải quyết:
1) Với các hệ thống trước đó, rất nhiều thời gian và so sánh không cần thiết được thực hiện giữa các tài liệu đó sẽ không phải là nguồn của đạo văn vì sự khác biệt về nội dung, 2) An ninh phát hiện sao chép trước hệ thống là yếu vì những thay đổi nhỏ có thể được thực hiện cho mỗi câu để theo vượt qua cơ chế phát hiện.
KIỂM TRA bất thường ở chỗ Information Retrieval (IR) kỹ thuật được áp dụng đầu tiên để lọc ra các ứng cử viên có khả năng đạo văn. Quá trình IR này được áp dụng đệ quy trên cấp độ khác nhau của granularity từ phần, phần phụ, đoạn văn để cuối cùng câu. So sánh giữa các tài liệu dựa trên các từ khóa được cho là để xác định ý nghĩa ngữ nghĩa của tài liệu.
Các tác giả của SÉC cũng nhận ra sự khác biệt giữa so sánh đạo văn của ngôn ngữ tự nhiên và lập trình (42). Họ nhận xét rằng chương trình máy tính được cấu trúc tốt và giữ gìn parse tree của chương trình gốc thậm chí chỉnh sửa. Tuy nhiên, đạo văn trong văn bản bằng văn bản là khó khăn hơn nhiều như là một tài liệu có thể bảo toàn ngữ nghĩa của bản gốc, nhưng trải qua nhiều thay đổi hơn một chương trình máy tính (tức là cây phân tích cú pháp được thay đổi).

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.