3.6.6 SCAM SCAM (Stanford Copy Analysis Mechanism) was developed from  dịch - 3.6.6 SCAM SCAM (Stanford Copy Analysis Mechanism) was developed from  Việt làm thế nào để nói

3.6.6 SCAM SCAM (Stanford Copy Anal

3.6.6 SCAM SCAM (Stanford Copy Analysis Mechanism) was developed from the experiences gained from building COPS by Narayanan Shivakumar and Hector Garcia-Molina - (40) and (41). The system is designed for detecting plagiarism, copies, extracts and strongly similar documents in digital libraries. The main objective for building the system was as a method for supporting the copyright of documents stored in a library to detect cases of unauthorised copying. SCAM came into the spotlight in 1995 when the system correctly reported 13 cases of possible plagiarism (verified by the original authors) by an academic researcher initially sparked by similarities in a submission to the EURO PAR 95 conference (10).
The main difference of SCAM from COPS is that SCAM is a word-based scheme, whereas COPS was sentence-based. The problem with simply comparing sentences is that partial sentence overlaps are not detected. Further problems of COPS included detecting sentences with figures, equations and abbreviations confusing the system and checking for overlap involved many random probes into the hash table causing an efficiency problem.
The documents are divided into words (units) and these are grouped to form chunks. The chunks are inserted into the repository in an inverted index structure and used to compare with new document arrivals (see Figure 6). SCAM uses words as chunks for comparison allowing the system to detect partial sentence overlap. SCAM uses a derivative of the Vector-Space Model to measure similarity between documents. This is a popular IR technique and operates by storing the normalised frequency of words within the document as a vector. The vectors are then compared for similarity using a measure such as the vector dot product or cosine similarity measure and a resulting value, if exceeding a pre-defined threshold, is flagged. Problems with both methods given in (41) gave rise to the development of a new similarity measure called the Relative Frequency Model (RFM).
The RFM uses the relative frequencies of words as indicators of similar word usage and combines this with the cosine similarity measure. Initially a closeness set is defined that indicates all words that have a similar number of occurrences in two documents. This set is used in the measure for a subset test that determines whether D1 is a subset of D2. The test is asymmetric therefore the similarity set is the maximum value of the subset of D1 compared with D2 and subset value of D2 compared with D1.
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
3.6.6 SCAM lừa đảo (Stanford bản sao phân tích cơ chế) đã được phát triển từ những kinh nghiệm thu được từ xây dựng cảnh sát bởi Narayanan sơn và Hector Garcia-Molina - (40) và (41). Hệ thống được thiết kế để phát hiện đạo văn, bản sao, chiết xuất và mạnh mẽ tương tự như tài liệu trong thư viện kỹ thuật số. Mục tiêu chính cho xây dựng hệ thống là một phương pháp để hỗ trợ quyền tác giả của tài liệu lưu trữ trong một thư viện để phát hiện các trường hợp của việc sao chép trái phép. Lừa đảo ra sự chú ý vào năm 1995 khi hệ thống một cách chính xác báo cáo các trường hợp 13 của đạo văn có thể (xác minh bởi tác giả gốc) bởi một nhà nghiên cứu học thuật ban đầu gây ra bởi sự tương đồng về một trình hội nghị EURO PAR 95 (10).Sự khác biệt chính của SCAM từ cảnh sát là lừa đảo là một chương trình dựa trên từ, trong khi cảnh sát đã được dựa trên câu. Vấn đề với đơn giản so sánh câu là rằng một phần câu chông không được phát hiện. Các vấn đề hơn nữa của cảnh sát bao gồm phát hiện câu với con số, phương trình và chữ viết tắt khó hiểu hệ thống và kiểm tra cho chồng chéo lên nhau tham gia nhiều đầu dò ngẫu nhiên vào bảng băm gây ra một vấn đề hiệu quả.Các tài liệu được chia thành các từ (đơn vị) và chúng được nhóm lại với dạng khối. Các khối được đưa vào kho lưu trữ trong một cấu trúc đảo ngược chỉ số và được sử dụng để so sánh với mới tài liệu (xem hình 6). Lừa đảo sử dụng từ khối để so sánh cho phép hệ thống để phát hiện một phần câu chồng chéo. Lừa đảo sử dụng một dẫn xuất của các mô hình gian để đo lường sự tương tự giữa các tài liệu. Đây là một kỹ thuật phổ biến IR và hoạt động bằng cách lưu trữ tần số normalised từ trong các tài liệu như một vector. Các vectơ sau đó so sánh cho tương tự bằng cách sử dụng một biện pháp như sản phẩm dot véc tơ hoặc cô sin tương tự biện pháp và một giá trị kết quả, nếu vượt quá ngưỡng được xác định trước, được đánh dấu. Vấn đề với cả hai phương pháp được đưa ra trong (41) đã dẫn đến sự phát triển của một biện pháp tương tự mới được gọi là mô hình tần số tương đối (RFM).RFM sử dụng tần số tương đối của các từ như chỉ số tương tự từ sử dụng và kết hợp này với các biện pháp tương tự cô sin. Ban đầu bộ gần gũi được xác định chỉ ra tất cả các từ có một số lượng tương tự của các sự kiện trong hai tài liệu. Thiết lập này được sử dụng trong các biện pháp cho thử nghiệm một tập hợp con mà xác định cho dù D1 là một tập hợp con của D2. Các thử nghiệm là không đối xứng do đó thiết lập tương tự là giá trị tối đa của tập hợp con của các tuyến đường D1 so với D2 và giá trị tập hợp con của D2 so với D1.
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
3.6.6 SCAM SCAM (Stanford Sao chép Phân tích cơ chế) được phát triển từ những kinh nghiệm thu được từ việc xây dựng COPS bởi Narayanan Shivakumar và Hector Garcia-Molina - (40) và (41). Hệ thống được thiết kế để phát hiện đạo văn, bản, chiết xuất và các văn bản mạnh mẽ tương tự như trong các thư viện kỹ thuật số. Mục tiêu chính cho việc xây dựng hệ thống đã được như một phương pháp để hỗ trợ bản quyền của các tài liệu được lưu trữ trong một thư viện để phát hiện các trường hợp sao chép trái phép. SCAM đến thành tâm điểm chú ý trong năm 1995 khi hệ thống báo cáo chính xác 13 trường hợp có thể đạo văn (có xác nhận của tác giả ban đầu) của một nhà nghiên cứu học tập ban đầu gây ra bởi sự tương đồng trong một trình hội nghị EURO PAR 95 (10).
Sự khác biệt chính của SCAM từ COPS là SCAM là một chương trình soạn thảo văn bản trên, trong khi COPS được câu trên. Vấn đề với chỉ đơn giản là so sánh câu là chồng chéo câu một phần không được phát hiện. Vấn đề hơn nữa của COPS bao gồm phát hiện câu với những con số, phương trình và chữ viết tắt khó hiểu hệ thống và kiểm tra chồng chéo liên quan đến nhiều đầu dò ngẫu nhiên vào bảng băm gây ra một vấn đề hiệu quả.
Các tài liệu được chia thành các từ (đơn vị) và chúng được nhóm lại để tạo thành khối. Các khối được đưa vào kho lưu trữ trong một cơ cấu chỉ số ngược và được sử dụng để so sánh với lượng khách tài liệu mới (xem hình 6). SCAM sử dụng những từ như khối để so sánh cho phép hệ thống để phát hiện một phần bản án chồng lên nhau. SCAM sử dụng một dẫn xuất của Vector-Space mẫu để đo sự tương đồng giữa các tài liệu. Đây là một kỹ thuật phổ biến IR và hoạt động bằng cách lưu trữ các tần số bình thường của từ này trong văn như là một vector. Các vectơ sau đó được so sánh với giống nhau bằng cách sử dụng một biện pháp chẳng hạn như các sản phẩm vector dấu chấm hoặc đo cosine tương đồng và một giá trị kết quả, nếu vượt quá một ngưỡng xác định trước, có gắn cờ. Vấn đề với cả hai phương pháp được đưa ra trong (41) đã dẫn đến sự phát triển của một biện pháp tương tự mới được gọi là tương đối Tần Model (RFM).
Các RFM sử dụng các tần số tương đối của các từ như các chỉ số sử dụng nhiều từ tương tự và kết hợp với các biện pháp tương tự cosin . Ban đầu một tập gần gũi được định nghĩa mà chỉ ra tất cả những từ có một số lượng tương tự xảy ra trong hai tài liệu. Tập hợp này được sử dụng trong các biện pháp cho một bài kiểm tra tập hợp xác định liệu D1 là một tập hợp con của D2. Bài kiểm tra là bất đối xứng do đó các bộ tương tự là giá trị tối đa của các tập hợp con của D1 so với D2 và giá trị tập hợp con của D2 so với D1.
đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2024 I Love Translation. All reserved.

E-mail: