3.3 hạn nặngNhư đã đề cập ở trên, văn bản được chiết xuất từ một trang web bao gồm văn bản boilerplate và trọng tải. Để giảm bớt ảnh hưởng của các cựu và tăng cường tác động của thứ hai vào tài liệu vectơ, chúng tôi tính toán idf một cách riêng biệt cho mỗi tên miền trong các thiết lập (chứ không phải trên toàn cầu trên tất cả các tên miền). Vì vậy, điều kiện xảy ra thường xuyên qua một trang web cụ thể sẽ nhận được một số điểm thấp đặc trưng (ví dụ, idf) trên các trang từ trang web đó, nhưng có thể nhận được một điểm số cao nếu chúng xuất hiện ở những nơi khác.3.4 Scoring chức năngTrong các thí nghiệm của chúng tôi, chúng tôi khám phá và kết hợp chức năng ghi bàn sau đây:3.4.1 tương tự cô sin (cos)Đây là biện pháp cổ điển tương tự LSI dựa trên thông tin tra cứu. Nó tính đồng sine của góc giữa hai vectơ mà em-giường hai ứng cử viên tài liệu trong không gian véc tơ liên ngữ nghĩa.3.4.2 "địa phương" cô sin tương tự (lcos)Trực giác đằng sau các biện pháp tương tự địa phương cô sin là đây: kể từ khi chúng tôi thực hiện SVD trên một ma trận hạn-tài liệu bilin-gual bao gồm doc-ument cột vectơ cho các tài liệu từ một bộ sưu tập lớn của các trang web, trang web từ mỗi trang web cụ thể sẽ vẫn xuất hiện khá tương tự nếu các trang web là dành riêng cho một chủ đề cụ thể tích (mà đại đa số các trang web). Điểm số tương tự như vậy sẽ được chi phối bởi tên miền chung của trang web chứ không phải là differences giữa các trang web riêng lẻ trong vòng một trang web nhất định. Biện pháp tương tự địa phương cô sin cố gắng dàn xếp này phe nomenon bằng cách dịch chuyển nguồn gốc của không gian vectơ vào Trung tâm của tiểu không gian trong đó các trang của
đang được dịch, vui lòng đợi..