1. Tất cả các URL trong một miền được tokenised thành các khối hoặc là tất cả các chữ hoặc tất cả các số dựa trên các lớp UTF-8 nhân vật POSIX; punc-tuation được loại bỏ.
2. Đối với một cặp cho các URL ứng cử viên, chúng tôi de-Termine qua các thuật toán Needleman-Wunsch (Needleman và Wunsch, 1970), các điểm cumula-chính kịp thời của chuỗi trận đấu được-tween dài nhất chuỗi thẻ tương ứng với hai URL. Điểm số trận đấu cho mỗi cặp thẻ HT1 trong phân biệt, T2i trong sự liên kết được tính như sau.
đang được dịch, vui lòng đợi..
