KIỂM TRA kết hợp thông tin bổ sung (từ khóa trọng số) vào cây phân tích cú pháp tài liệu để nắm bắt một đại diện tốt hơn đó là khả năng chống sửa đổi tài liệu đơn giản. Tại thời điểm viết bài, KIỂM TRA văn LATEX chỉ được công nhận.
KIỂM TRA tác phẩm theo cách sau đây:
1) Document Recognition - một recogniser LATEX phân tích các tài liệu và tạo ra một cây tài liệu. Đây là một cấu trúc giống như cây tương tự như cấu trúc của tài liệu ở các cấp độ trừu tượng khác nhau như phần, tiểu mục và đoạn văn. Đối với mỗi từ đầu vào, một hình thức của lemmatisation được áp dụng có thể chuyển đổi từ số nhiều mẫu số ít, động từ với dạng nguyên thể hiện tại của họ và tất cả các hậu tố như tính từ và trạng từ để cơ bản của họ xuất phát.
2) Từ khoá Extraction - kỹ thuật IR được sử dụng để trích xuất từ mô tả tốt nhất ngữ nghĩa của một tài liệu. Đây được phân ra mở lớp (danh từ, động từ, tính từ và trạng từ) và đóng cửa-class (giới từ, đại từ, liên từ và interjections) từ. Một số heuristics như lệnh định dạng trong tài liệu LATEX được sử dụng để hỗ trợ khai thác từ khóa.
3) Tạo ra đặc điểm cấu - cho mỗi tài liệu, một cấu đặc trưng (SC) được tạo ra. Đây là cấu trúc tài liệu kết hợp với các bộ tách các từ khóa. Các từ khóa được giao trọng ở cấp độ phần, tiểu mục và đoạn văn.
Kết quả của quá trình này là một cái cây cho mỗi tài liệu có từ khoá có trọng gán cho mỗi nút của cây. Những đại tài liệu kết quả được thêm vào một máy chủ đăng ký có thể được sử dụng để so sánh với các tài liệu mới được trình bày vào hệ thống. Sự tương đồng giữa các văn bản mới và hiện được đo bằng cách sử dụng những điểm giữa vectơ bình thường đại diện cho các từ khóa cho một tài liệu. Sự so sánh này được lặp lại cho mỗi cấp độ của tài liệu trừu tượng, nhưng chỉ khi kết quả so sánh trước đó trong một giá trị tương đồng hơn nữa so với một số mức ngưỡng được xác định trước (tức là tránh sự so sánh không cần thiết ở mức độ trừu tượng thấp hơn các văn bản liên quan đến un).
Các thử nghiệm của hệ thống là KIỂM TRA được thực hiện trên 15 tài liệu kỹ thuật và tham gia đo lường độ chính xác và thu hồi cho các thí nghiệm sau đây:
1) Xác định các văn bản giống hệt nhau (bản sao chính xác) 2) Hành vi của SÉC với các tài liệu mô tả chủ đề tương tự (không có bản sao), 3) Xác định các hoạt động sao chép thực tế, 4) Hành vi của SÉC với các tài liệu ăn cắp ý tưởng mô tả các đối tượng liên quan.
Theo như tôi có thể làm ra, các hoạt động sao chép mà kiểm tra là phải chịu được chỉ đơn giản là sao chép từ một loạt các tài liệu và kết hợp với nhau trong một số đoạn văn vào một (tức là nguyên văn cắt và dán). Có vẻ là không có đề cập đến thay thế hoặc cụm từ đồng nghĩa và không có nghiên cứu dường như đã được thực hiện trên các ví dụ ăn cắp ý tưởng thực tế, họ đều là thử nghiệm. Tuy nhiên, độ chính xác và nhớ lại kết quả cho thấy rằng hệ thống đã có thể phân biệt đối xử giữa các tập hợp nhỏ các tài liệu ăn cắp ý tưởng ăn cắp ý tưởng và không được sử dụng để thử nghiệm.
đang được dịch, vui lòng đợi..