Cách tiếp cận YAP không cố gắng một phân tích cú pháp đầy đủ của ngôn ngữ đích, nhưng so sánh chuỗi hiệu được tạo thành từ các từ khóa được rút ra từ vựng của ngôn ngữ mục tiêu. Điều này đặc biệt hữu ích cho tiếng Anh, như có được một phân tích đầy đủ của ngôn ngữ là thực tế không thể.
Hệ thống hoạt động theo cách sau đây:
• Một tokeniser-máy phát điện được sử dụng để phân tích một số văn bản và sau đó xác định các từ vựng được sử dụng để tạo mã thông báo dây.
• Một đầu phân tích từ vựng-tạo giúp loại bỏ tất cả các số, từ gồm một hoặc hai chữ cái, danh từ riêng và tất cả các từ "phổ biến" (khoảng 150 như được định nghĩa trong một stoplist). Các stoplist được mở rộng bằng cách sử dụng đơn giản xuất phát (ví dụ nếu "giữ" là trong stoplist, sau đó để cho sẽ "tiếp tục" và "giữ", vv).
Những lời còn lại được bắt nguồn bằng cách sử dụng recogniser PC-Kimmo (phiên bản 1.08) và các quy tắc Englex10 và từ vựng sets14.
Các tokeniser-máy phát điện và các kết quả từ vựng đã được áp dụng cho một loạt các bài luận bằng YAP3, mặc dù khôn ngoan báo cáo không có trường hợp đạo văn phát hiện.
đang được dịch, vui lòng đợi..