Trong bài báo này, chúng tôi mô tả những nỗ lực của chúng tôi để tự động xác định chồng chéo giữa các văn bản học sinh và các văn bản gốc. Chúng tôi bắt đầu bằng việc mô tả corpus của văn bản học sinh. Sau đó, chúng tôi trình bày một phương pháp phân loại văn bản đơn giản, trong đó một chuyên gia con người tạo ra biểu thức thông thường để xác định câu sinh viên tương ứng với một loại tài liệu mô hình cụ thể. Trong phần 4, chúng tôi đánh giá phân tích ngữ nghĩa tiềm ẩn để phân loại các văn bản học sinh. Sau đó, chúng tôi mô tả một cách tiếp cận máy học cho vấn đề phân loại, và kết thúc với một so sánh các phương pháp tiếp cận.
đang được dịch, vui lòng đợi..