Trong khi mô hình không gian vector có một số tính năng hấp dẫn - đặc biệt là trong việc xác định cơ sở của bộ từ mà là cho các tài liệu trong bộ sưu tập - cách tiếp cận này cũng cung cấp một số lượng tương đối nhỏ của giảm chiều dài mô tả và tiết lộ rất ít trong cách của tế hoặc tài liệu trong nội bộ cấu trúc thống kê. Để khắc phục những thiếu sót, các nhà nghiên cứu IR đã đề xuất một số phương pháp mô hình khác như mô hình tổng quát vector không gian, mô hình không gian vector chủ đề dựa trên, vv, trong đó phân tích ngữ nghĩa tiềm ẩn (LSA - Deerwester et al, 1990) [13] [26] là đáng chú ý nhất. LSA sử dụng một giá trị duy nhất của ma trận X hạn theo tài liệu để xác định một không gian con tuyến tính trong không gian của các tính năng trọng lượng hạn mà bắt nhất của phương sai trong các bộ sưu tập. Cách tiếp cận này có thể giảm được đáng kể trong các bộ sưu tập lớn. Hơn nữa, Deerwester et al cho rằng phương pháp này có thể tiết lộ một số khía cạnh của khái niệm ngôn ngữ cơ bản như đồng nghĩa hay đa nghĩa.
đang được dịch, vui lòng đợi..
