3.7 IR kỹ thuậtĐể xây dựng các bộ liên kết truy tìm nguồn gốc, chúng tôi sử dụng VSM (từ gia đình đại số kỹ thuật) và JSM (từ gia đình xác suất của kỹ thuật) kỹ thuật. Abadi et al. [15] thực hiện thí nghiệm bằng cách sử dụng kỹ thuật IR khác nhau để phục hồi truy tìm nguồn gốc liên kết. Kết quả của họ cho thấy rằng các mô hình không gian Vector và các mô hình Jensen-Shannon tốt hơn các kỹ thuật IR khác. Ngoài ra, hai kỹ thuật không phụ thuộc vào bất kỳ tham số. Vì vậy, chúng tôi sử dụng cả hai JSM và VSM để khôi phục lại truy tìm nguồn gốc liên kết và so sánh kết quả của họ trong sự cô lập với những người Trustrace. Những kỹ thuật cả haivề cơ bản sử dụng thuật ngữ bởi tài liệu ma trận. Do đó, chúng tôi chọn lực lượng đặc nhiệm nổi tiếng = IDF biện pháp [3], [25], [26], [27] cho VSM và các biện pháp tần số hạn bình thường [15] cho JSM. Những hai biện pháp và IR kỹ thuật là nhà nước-of-the-art IR kỹ thuật. Năm sau, chúng tôi giải thích cả hai kỹ thuật chi tiết.3.7.1 mô hình không gian vectơNhiều truy tìm nguồn gốc phục hồi kỹ thuật sử dụng VSM như cơ sở thuật toán [3], [28], [29]. Trong VSM, tài liệu được biểu diễn như vector trong không gian của tất cả các điều khoản. Thuật ngữ khác nhau hệ số chương trình có thể được sử dụng để xây dựng các vector. Chúng tôi sử dụng lực lượng đặc nhiệm tiêu chuẩn = IDF hệ số đề án [28]: một tài liệu là một véc tơ của lực lượng đặc nhiệm = trọng lượng IDF. Lực lượng đặc nhiệm thường được gọi là trọng lượng địa phương. Các điều khoản thường xuyên nhất sẽ có trọng lượng hơn trong lực lượng đặc nhiệm, nhưng điều này tự nó không có nghĩa rằng họ là điều khoản quan trọng. Tần số tài liệu nghịch đảo, IDF, của một thuật ngữ được tính để đo lường trọng lượng toàn cầu của một điều khoản và được tính như IDF ¼ log2ð jd:jtDi2jdjÞ. Sau đó, lực lượng đặc nhiệm = IDF được định nghĩa là
đang được dịch, vui lòng đợi..