Một bài viết gần đây của Mozgovoy cung cấp một bài đánh giá về các mã nguồn đạo văn phát hiện phương pháp tiếp cận [100]. Phổ biến nhất các thuật toán phát hiện đạo văn sử dụng phù hợp với chuỗiđể tạo ra chuỗi mã thông báo đại diện của chương trình. Thẻ của mỗi tài liệu được so sánh trên cơ sở pair-wise để xác định các phân đoạn mã nguồn tương tự giữa các tập tin vàtính toán giá trị tương tự giữa tập tin dựa trên các phân đoạn tương tự tìm thấy. Một số cũngđược biết đến các hệ thống số liệu cấu trúc tại gồm YAP3 [144], bệnh dịch hạch [139] và JPlag [115].Các phương pháp tiếp cận tập trung vào phát hiện đạo văn dựa trên các tập tin mã nguồn cấu trúc thông tin có nguồn gốc từ các cú pháp ngôn ngữ lập trình. Mỗi tập tin từ và ký tự2được chuyển đổi thành thẻ đại diện cho ý nghĩa ngữ nghĩa của họ. Trình so sánhkhông chính nó dựa trên ý nghĩa ngữ nghĩa của các tập tin, nhưng nó là khá là một so sánh cấu trúc,đó bao gồm tìm kiếm cho các tập tin có chứa mã thông báo trình tự phù hợp. Thuật toánmà dựa trên phát hiện tương tự như tập tin bằng cách phân tích cấu trúc của đặc điểm thường không đểphát hiện các tập tin tương tự có chứa đáng kể mã shuffling, tức là loại tấn công nguyên nhân[115] nhầm lẫn địa phương. Ngoài ra, phù hợp với chuỗi dựa trên hệ thống chuyển đổi tập tin mã nguồnvào thẻ bằng cách sử dụng một phân tích cú pháp. Phù hợp với chuỗi hệ thống được phụ thuộc vào ngôn ngữ tùy thuộc vàoCác ngôn ngữ lập trình được hỗ trợ bởi parsers của họ, và được miễn dịch với nhiều cuộc tấn công nhất,nhưng như đã đề cập ở trên họ có thể được lừa bởi cuộc tấn công cụ thể chủ yếu là về cấu trúc củamã nguồn.
đang được dịch, vui lòng đợi..
