Ý tưởng đằng sau nàymềm mại kết hợp điểm là phần thưởng nghitrong cặp ứng cử viên đã không semblance của nhau nào. ChoVí dụ, các lcss điểm thành phần choCặp hLondon, Londresi sẽ là ca.0,62 (len ("London") + len (2∗4 "Londres")), trong khihLondon cặp, Parisi sẽ nhận được mộtphù hợp với số điểm là 0, mỗi điểm được nêu ra đểđược tính bởi cnt (t1) 1 ·cnt(t2). Soft nàyphù hợp với điểm phục vụ để đáp ứngCác trang web mà căn cứ URL của họ, ví dụ, các tiêu đề của bài báo hoặc bài viết.4 đánh giá4.1 nhớ lại về đào tạo và kiểm tra dữ liệuĐể sắp xếp hạng giả thuyết, chúng tôi điều tra tất cảthống nhất kết hợp tuyến tính của ba chức năng chấm điểm cá nhân. Bảng 1 cho thấy các kết quả chođào tạo thiết lập, và, ở hàng cuối, hiệu suất của kết hợp tính năng tốt nhất trên các bài kiểm trathiết lập. Trong tập đầu tiên của thử nghiệm trên các thiết lập đào tạo, mà kết quả sẽ được hiển thị ở nửa bên tráibảng, chúng tôi sử dụng danh sách các trận đấu được biết đến trongđào tạo dữ liệu cả hai cho seeding LSI cross-ngôn ngữvà đánh giá. Những con số này cho chúng ta một cảm giác như thế nàosử tốt tài liệu được ánh xạ vào cácchung ngữ nghĩa không gian bởi LSI và tài liệu trong màn hình đầu tiên.Cột đầu tiên của số điện thoại gọi lại ("nghiêm ngặt")sau các thủ tục chính thức đánh giá, đếmsố lượng URL chính xác phù hợp là chính xác. Sau đâycột hiển thị hiệu suất nếu một khoan dung hơnkhái niệm về "phù hợp với tài liệu" được áp dụng. Điều nàyCác biện pháp khoan dung hơn tính tương đồng giữa dự kiến và tài liệu được đề xuất mục tiêu cho một tài liệu nhất định nguồn (và ngược lại)như sau:score(text1,text2) = 2 · lcss(text1,text2)| text1 | + | text2 | (4)Chiều dài của chuỗi con chung dài nhất(lcss) ở đây được đo trong điều kiện ngăn cách không gianhiệu như chúng xảy ra trong văn bản. Không tinh vi hơn tokenisation được thực hiện. Contentbased đánh giá đo đếm một phù hợp với đề xuấtđúng nếu tương tự từ một tài liệu được đề xuất mục tiêu (hoặc nguồn) đến tài liệu dự kiến là lớn hơn hoặc bằng ngưỡng được chỉ địnhtrong tiêu đề cột.Nửa bên phải của bảng hiển thị kết quả chođánh giá cùng thực hiện trên cơ sở bản gốc ma trận song ngữ thuật ngữ-tài liệu loại trừTất cả các trận đấu được biết đến từ các tên miền trong câu hỏi,phụ thuộc chỉ vào các trận đấu được biết đến từ các tên miền trang web khác. Điều này dẫn đến ít từ vựng phù hợp, như làđiều khoản cụ thể cho các trang web trong câu hỏi có thể khôngđược bao gồm trong các mô hình. Theo dự kiến, chúng ta thấy mộtthả trong hoạt động, nhưng chúng tôi vẫn có thể recove
đang được dịch, vui lòng đợi..
