1. Tất cả các URL trong một miền được tokenised thành các khối hoặc là tất cả các chữ hoặc tất cả các số dựa trên các lớp UTF-8 nhân vật POSIX; dấu chấm câu được loại bỏ.
2. Đối với một cặp cho các URL ứng cử viên, chúng tôi de-Termine qua các thuật toán Needleman Wunsch (Needleman và Wunsch, 1970), số điểm tích lũy của chuỗi trận đấu dài nhất giữa các chuỗi thẻ tương ứng với hai URL. Điểm số trận đấu cho mỗi thẻ cặp HT1 cá nhân, T2i trong sự liên kết được tính như sau.
đang được dịch, vui lòng đợi..
