3.7.1 Vector Space Mô hình
kỹ thuật phục hồi Nhiều truy xuất nguồn gốc sử dụng VSM như các thuật toán cơ bản [3], [28], [29]. Trong VSM, tài liệu được biểu diễn như là vector trong không gian của tất cả các điều khoản. Đề án trọng khác nhau hạn có thể được sử dụng để xây dựng các vectơ. Chúng tôi sử dụng các tiêu chuẩn TF = IDF trọng án [28]: Một tài liệu là một vector của TF = IDF trọng. TF thường được gọi là trọng lượng của địa phương. Các thuật ngữ thường gặp nhất sẽ có trọng lượng hơn trong TF, nhưng điều này tự nó không có nghĩa rằng họ là những thuật ngữ quan trọng. Các tần số tài liệu nghịch đảo, IDF, một thuật ngữ được tính toán để đo trọng lượng toàn cầu của một điều khoản và được tính như IDF ¼ log2ð jd: jtDi2jdjÞ. Sau đó, TF = IDF được định nghĩa là
ni; j jDj DTF = IDFÞi; j ¼ P nk; j log2 jd: ti 2 dj;
k
nơi ni; j là lần xuất hiện của một ti hạn trong tài liệu dj, nk Pk; j là tổng các lần xuất hiện của tất cả các điều khoản trong tài liệu dj, jDj là tổng số các văn bản d trong corpus, và JD: ti 2 dj là số lượng tài liệu trong đó ti hạn xuất hiện.
Một khi tài liệu được biểu diễn như là vectơ điều khoản trong một VSM, liên kết truy xuất nguồn gốc được tạo ra giữa hai văn bản có giá trị tương tự của họ phụ thuộc vào mỗi cặp tài liệu, ví dụ như, một yêu cầu và một lớp học. Sự giống nhau giữa hai tài liệu được đo bằng tích cực cosin của góc giữa vector tương ứng của họ (vì sự giống nhau giữa hai tài liệu không thể phủ định). Danh sách xếp hạng các liên kết phục hồi và một ngưỡng tương tự được sử dụng để phân chia liên kết thành một tập hợp các liên kết ứng cử viên phải được tự xác minh [3].
đang được dịch, vui lòng đợi..
