Phần mềm công cụ phát hiện đạo văn sử dụng một trong hai phương pháp thuộc tính đếm hoặc cách tiếp cận dựa trên cấu trúc. So sánh cẩn thận đã chỉ ra rằng các phương pháp dựa trên cấu trúc là hiệu quả hơn nhiều so với những thuộc tính đếm. Nó sẽ là thú vị để thử một cách tiếp cận tương tự như đạo văn của văn bản bằng văn bản mà các phương pháp dựa trên cấu trúc của văn bản có thể chứng minh được nhiều thành công hơn so với những người chỉ đơn giản dựa trên thuộc tính đếm (chẳng hạn như từ). Ví dụ, nó sẽ là thú vị để so sánh một cách tiếp cận thông tin Retrieval (như đại diện vector và cosin tương tự) mà sẽ so sánh các văn bản như là một "túi-of-từ" và một phương pháp phù hợp các văn bản và tương đồng so (tức là xem xét cấu trúc của văn bản). Hiện nay, so sánh các kỹ thuật phát hiện đạo văn với phần mềm văn bản bằng văn bản không có vẻ như đã được thực hiện. Có những điểm tương đồng giữa phát hiện đạo văn trong từng khu vực, nhưng có thể được khai thác thêm. Tuy nhiên, cũng có những khác biệt rõ ràng giữa đạo văn trong văn bản văn bản và lập trình ngôn ngữ. Không nhiều hơn so đơn giản chỉ là sự mơ hồ và phức tạp của ngôn ngữ tự nhiên so với các ngôn ngữ lập trình mà sẽ làm cho việc áp dụng các kỹ thuật tương tự cho cả hai khu vực có khả năng không thành công.
Một cải tiến hơn nữa sẽ là thí nghiệm dựa trên một kỹ thuật đánh giá chung. Whale cung cấp cơ sở cho phần mềm cho phép sự thành công của các kỹ thuật để dễ dàng được minh họa và xếp hạng. Chiến lược đánh giá tương tự này có thể được thực hiện với đạo văn trong văn bản.
Tôi cũng quan tâm trong việc sử dụng phong cách của một tác giả để phát hiện các mẫu bất thường trong cả hai mã phần mềm và văn bản bằng văn bản. Điều này có thể cung cấp các nghiên cứu hữu ích như thế nào phong cách của một tác giả thay đổi theo thời gian và nó sẽ là thú vị để xác định những tính năng có thể được sử dụng để xác định thành công quyền tác giả.
đang được dịch, vui lòng đợi..