1. Tất cả các URL trong một miền được tokenised thành các khối hoặc là tất cả các chữ hoặc tất cả các số dựa trên các lớp UTF-8 nhân vật POSIX; dấu chấm câu được loại bỏ.
2. Đối với một cặp cho các URL ứng cử viên, chúng tôi de-Termine qua các thuật toán Needleman-Wunsch (Needleman và Wunsch, 1970), số điểm tích lũy của chuỗi trận đấu được-tween dài nhất chuỗi thẻ tương ứng với hai URL. Điểm số trận đấu cho mỗi thẻ cặp HT1 cá nhân, T2i trong sự liên kết được tính như sau.
đang được dịch, vui lòng đợi..