CHECK incorporates additional infor

CHECK incorporates additional information (weighted keywords) into the document parse tree to capture a better representation that is more resistant to simple document modifications. At the time of writing, CHECK only recognised LATEX documents.
CHECK works in the following manner:
1) Document Recognition – a LATEX recogniser parses the document and creates a document tree. This is a tree-like structure that resembles the structure of the document at various levels of abstraction such as section, subsection and paragraph. For each of the input words, a form of lemmatisation is applied that converts plurals to a singular form, verbs to their present infinitive form and all suffixes such as adjectives and adverbs to their fundamental stems.
2) Keyword Extraction – IR techniques are used to extract words that best describe the semantics of a document. These are categorised into open-class (nouns, verbs, adjectives and adverbs) and closed-class (prepositions, pronouns, conjunctions and interjections) words. Some heuristics such as formatting commands within the LATEX document are used to aid keyword extraction.
3) Generate Structural Characteristics – for each document, a Structural Characteristic (SC) is generated. This is the document structure merged with the extracted set of keywords. The keywords are assigned weights at the section, subsection and paragraph levels.
The result of this process is a tree for each document with weighted keywords assigned to each node of the tree. These resulting document representations are added to a registration server that can be used to compare with new documents presented to the system. Similarity between the new and existing documents is measured using the dot product between normalised vectors representing the keywords for a document. This comparison is repeated for each level of document abstraction, but only if the previous comparison results in a similarity value greater than some predefined threshold level (i.e. avoid unnecessary comparisons at lower abstraction levels of un-related documents).
Tests of the CHECK system were made on 15 technical documents and involved measuring the precision and recall for the following experiments:
1) Identification of identical documents (exact copy) 2) Behaviour of CHECK with documents describing similar topics (no copy), 3) Identification of actual copying activities, 4) Behaviour of CHECK with plagiarised documents describing unrelated subjects.
As far as I can make out, the copying activities that CHECK is subjected to are simply copying from a range of documents and the merging together of a number of paragraphs into one (i.e. verbatim cut-and-paste). There seems to be no mention of substitutions or synonymous phrases and no study appears to have been undertaken on actual plagiarised examples, they are all experimental. However, the precision and recall results show that the system was able to discriminate between the small set of plagiarised and non- plagiarised documents used for testing.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Phòng kết hợp bổ sung thông tin (trọng từ khóa) vào cây phân tích tài liệu để nắm bắt một đại diện tốt hơn đó là khả năng chống để sửa đổi các tài liệu đơn giản. Tại thời điểm viết, Phòng chỉ công nhận tài liệu cao su.Kiểm tra hoạt động theo cách sau đây:1) công nhận tài liệu-một recogniser cao su phân tích các tài liệu và tạo ra một cây tài liệu. Đây là một cấu trúc cây giống như tương tự như cấu trúc của tài liệu ở các cấp độ trừu tượng chẳng hạn như phần, phụ và đoạn văn. Đối với mỗi từ đầu vào, một hình thức của lemmatisation được áp dụng mà chuyển đổi từ tiếng Anh sang một hình thức từ, động từ dạng số hiện tại của họ và tất cả hậu tố chẳng hạn như tính từ và trạng từ để thân cây cơ bản.2) khai thác từ khóa-IR kỹ thuật được sử dụng để chiết xuất từ tốt nhất mô tả các ngữ nghĩa của một tài liệu. Chúng được phân loại thành mở lớp (danh từ, động từ, tính từ và trạng từ) và lớp đóng cửa (giới từ, đại từ, Liên từ và mục từ) từ. Một số chẩn đoán như định dạng lệnh trong tài liệu cao su được sử dụng để hỗ trợ khai thác từ khóa.3) tạo ra các đặc điểm cấu trúc-cho mỗi tài liệu, một đặc tính cấu trúc (SC) được tạo ra. Đây là cấu trúc tài liệu được sáp nhập với bộ chiết xuất của từ khóa. Các từ khóa được phân công các trọng lượng ở mức phần, phụ và đoạn văn.Kết quả của quá trình này là một cây cho mỗi tài liệu với trọng từ khóa được chỉ định cho mỗi nút cây. Các đại diện tài liệu kết quả được thêm vào một máy chủ đăng ký có thể được sử dụng để so sánh với các tài liệu mới trình bày hệ thống. Giống nhau giữa các tài liệu mới và đang có được đo bằng cách sử dụng sản phẩm dot giữa vector normalised đại diện cho các từ khóa cho một tài liệu. So sánh này là lặp đi lặp lại cho mỗi cấp độ của tài liệu trừu tượng, nhưng chỉ khi các kết quả so sánh trước trong giá trị tương tự trên một số xác định trước ngưỡng cấp (tức là tránh các so sánh không cần thiết tại trừu tượng cấp thấp hơn của tài liệu không liên quan).Các xét nghiệm của hệ thống phòng được thực hiện trên 15 tài liệu kỹ thuật và tham gia vào đo chính xác và thu hồi cho các thí nghiệm sau đây:1) xác định các tài liệu giống hệt nhau (bản sao chính xác) 2) hành vi của các kiểm tra với tài liệu mô tả các chủ đề tương tự (không có bản sao), 3) xác định các hoạt động sao chép thực tế, 4) hành vi của các kiểm tra với plagiarised tài liệu mô tả các đối tượng không liên quan.Như xa như tôi có thể tạo ra, các hoạt động sao chép phòng phải chịu sự chỉ đơn giản là sao chép từ một loạt các tài liệu và sự kết hợp với nhau một số đoạn văn vào một (tức là đúng nguyên văn cắt-và-dán). Có vẻ là không có đề cập đến thay thế hoặc cụm từ đồng nghĩa và không có nghiên cứu dường như đã được thực hiện trên ví dụ plagiarised thực tế, họ là tất cả thử nghiệm. Tuy nhiên, độ chính xác và gọi lại kết quả hiển thị mà hệ thống đã có thể phân biệt đối xử giữa tập hợp nhỏ các plagiarised và phòng không - plagiarised tài liệu được sử dụng để thử nghiệm.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

KIỂM TRA kết hợp thông tin bổ sung (từ khóa trọng số) vào cây phân tích cú pháp tài liệu để nắm bắt một đại diện tốt hơn đó là khả năng chống sửa đổi tài liệu đơn giản. Tại thời điểm viết bài, KIỂM TRA văn LATEX chỉ được công nhận.
KIỂM TRA tác phẩm theo cách sau đây:
1) Document Recognition - một recogniser LATEX phân tích các tài liệu và tạo ra một cây tài liệu. Đây là một cấu trúc giống như cây tương tự như cấu trúc của tài liệu ở các cấp độ trừu tượng khác nhau như phần, tiểu mục và đoạn văn. Đối với mỗi từ đầu vào, một hình thức của lemmatisation được áp dụng có thể chuyển đổi từ số nhiều mẫu số ít, động từ với dạng nguyên thể hiện tại của họ và tất cả các hậu tố như tính từ và trạng từ để cơ bản của họ xuất phát.
2) Từ khoá Extraction - kỹ thuật IR được sử dụng để trích xuất từ mô tả tốt nhất ngữ nghĩa của một tài liệu. Đây được phân ra mở lớp (danh từ, động từ, tính từ và trạng từ) và đóng cửa-class (giới từ, đại từ, liên từ và interjections) từ. Một số heuristics như lệnh định dạng trong tài liệu LATEX được sử dụng để hỗ trợ khai thác từ khóa.
3) Tạo ra đặc điểm cấu - cho mỗi tài liệu, một cấu đặc trưng (SC) được tạo ra. Đây là cấu trúc tài liệu kết hợp với các bộ tách các từ khóa. Các từ khóa được giao trọng ở cấp độ phần, tiểu mục và đoạn văn.
Kết quả của quá trình này là một cái cây cho mỗi tài liệu có từ khoá có trọng gán cho mỗi nút của cây. Những đại tài liệu kết quả được thêm vào một máy chủ đăng ký có thể được sử dụng để so sánh với các tài liệu mới được trình bày vào hệ thống. Sự tương đồng giữa các văn bản mới và hiện được đo bằng cách sử dụng những điểm giữa vectơ bình thường đại diện cho các từ khóa cho một tài liệu. Sự so sánh này được lặp lại cho mỗi cấp độ của tài liệu trừu tượng, nhưng chỉ khi kết quả so sánh trước đó trong một giá trị tương đồng hơn nữa so với một số mức ngưỡng được xác định trước (tức là tránh sự so sánh không cần thiết ở mức độ trừu tượng thấp hơn các văn bản liên quan đến un).
Các thử nghiệm của hệ thống là KIỂM TRA được thực hiện trên 15 tài liệu kỹ thuật và tham gia đo lường độ chính xác và thu hồi cho các thí nghiệm sau đây:
1) Xác định các văn bản giống hệt nhau (bản sao chính xác) 2) Hành vi của SÉC với các tài liệu mô tả chủ đề tương tự (không có bản sao), 3) Xác định các hoạt động sao chép thực tế, 4) Hành vi của SÉC với các tài liệu ăn cắp ý tưởng mô tả các đối tượng liên quan.
Theo như tôi có thể làm ra, các hoạt động sao chép mà kiểm tra là phải chịu được chỉ đơn giản là sao chép từ một loạt các tài liệu và kết hợp với nhau trong một số đoạn văn vào một (tức là nguyên văn cắt và dán). Có vẻ là không có đề cập đến thay thế hoặc cụm từ đồng nghĩa và không có nghiên cứu dường như đã được thực hiện trên các ví dụ ăn cắp ý tưởng thực tế, họ đều là thử nghiệm. Tuy nhiên, độ chính xác và nhớ lại kết quả cho thấy rằng hệ thống đã có thể phân biệt đối xử giữa các tập hợp nhỏ các tài liệu ăn cắp ý tưởng ăn cắp ý tưởng và không được sử dụng để thử nghiệm.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.