3.3 hạn nặngNhư đã đề cập ở trên, văn bản được chiết xuất từ một trang web bao gồm văn bản boilerplate và trọng tải. Để giảm bớt ảnh hưởng của các cựu và tăng cường tác động của thứ hai vào tài liệu vectơ, chúng tôi tính toán idf một cách riêng biệt cho mỗi tên miền trong các thiết lập (chứ không phải trên toàn cầu trên tất cả các tên miền). Vì vậy, điều kiện xảy ra thường xuyên qua một trang web cụ thể sẽ nhận được một số điểm thấp đặc trưng (ví dụ, idf) trên các trang từ trang web đó, nhưng có thể nhận được một điểm số cao nếu chúng xuất hiện ở những nơi khác.3.4 Scoring chức năngTrong các thí nghiệm của chúng tôi, chúng tôi khám phá và kết hợp chức năng ghi bàn sau đây:3.4.1 tương tự cô sin (cos)Đây là biện pháp cổ điển tương tự LSI dựa trên thông tin tra cứu. Nó tính đồng sine của góc giữa hai vectơ mà em-giường hai ứng cử viên tài liệu trong không gian véc tơ liên ngữ nghĩa.3.4.2 "địa phương" cô sin tương tự (lcos)The intuition behind the local cosine similarity measure is this: since we perform SVD on a bilin-gual term-document matrix that consists of doc-ument column vectors for documents from a large collection of web sites, web pages from each specific web site will still appear quite similar if the web site is dedicated to a particular topic area (which the vast majority of web sites are). Similarity scores will thus be dominated by the general domain of the web site rather than the differences between individual pages within a given web site. The local cosine similarity measure tries to mediate this phe-nomenon by shifting the origin of the vector space to the centre of the sub-space in which the pages of
đang được dịch, vui lòng đợi..
