1. tất cả các URL trong một tên miền tokenised vào khối của tất cả các chữ cái hoặc tất cả các số dựa vào các lớp học ký tự POSIX UTF-8; dấu chấm câu được bỏ đi.2. đối với một cặp ứng cử viên URL, nhất định chúng tôi de-termine thông qua thuật toán Needleman Wunsch (Needleman và Wunsch, 1970) số điểm tích lũy của Chuỗi trận đấu dài nhất giữa các trình tự mã thông báo tương ứng với hai URL. Điểm phù hợp cho từng cá nhân mã thông báo cặp ht1, t2i trong liên kết được tính như sau.nơiCNT(t) là tính độc lập vị trítoken t trong tất cả các URL trong thu-tion. Trận đấu nặng dựa trên rel-Anh tần số trong phạm vi phục vụgiảm giá rất thường xuyên xảy ra URLlinh kiện, (chẳng hạn như http hay www) vàthúc đẩy các thành phần là hiếm trong cácURL cho các tên miền này, chẳng hạn như, cho ex -Bài viết phong phú, ID.
đang được dịch, vui lòng đợi..