Một số phương pháp tiếp cận để nhóm đánh giá có tính ứng dụng cụ thể để thu hồi tài liệu đã được thử nghiệm. Những cách tiếp cận thử để xác định xem một tập cho trước là một ứng cử viên tốt cho clustering, tức là, cho dù phân nhóm sẽ phát huy hiệu quả phục hồi. Một cách tiếp cận, do van Rijsbergen và các cộng sự [van Rijsbergen et al., 1973] là để so sánh sự giống nhau interdocument trung bình trong số các tài liệu có liên quan đến sự tương trung bình giữa các cặp tài liệu có liên quan-nonrelevant. Trung bình này có thể được tính cho một truy vấn nhất định hoặc trên một tập các câu truy vấn. Nếu giả thuyết cụm giữ, sự giống nhau trung bình trong số tài liệu liên quan nên được lớn hơn nhiều so với mức trung bình trong cặp có liên quan-nonrelevant. Một cách tiếp cận thứ hai, do Voorhees, là để xác định cho mỗi tài liệu có liên quan đến một truy vấn được đưa ra cách nhiều nước láng giềng gần nhất của nó cũng có liên quan đến các truy vấn. Trong thí nghiệm của mình, Voorhees [TR 85-658] coi là năm láng giềng gần nhất cho mỗi tài liệu có liên quan. Hai phương pháp này đều đòi hỏi rằng một truy vấn hoặc thiết lập các truy vấn được áp dụng cho các bộ sưu tập và các bản án liên quan được áp dụng cho các tài liệu lấy được bằng các truy vấn này. Các giả định được đưa ra rằng kết quả cho các truy vấn được đặc trưng cho các bộ sưu tập được đưa ra trong ý nghĩa rằng các truy vấn khác áp dụng cho bộ sưu tập sẽ cho kết quả tương tự. Một cách tiếp cận thứ ba, do El-Hamdouchi và Willett [JIS, 1987] phụ thuộc hoàn toàn vào tính chất của các bộ sưu tập riêng của mình, hay chính xác hơn về các điều khoản mà chỉ mục các tài liệu trong bộ sưu tập. Họ tính toán mật độ hạn, định nghĩa là số lần xuất hiện của tất cả các thuật ngữ chỉ mục trong bộ sưu tập (số lượng tin đăng) chia cho các sản phẩm của số lượng tài liệu trong bộ sưu tập và các số từ ngữ chỉ số duy nhất. Mật độ này là một thước đo về cách tập trung đông dân ma trận hạn tài liệu được. Các lý thuyết thì mật độ dài lớn hơn, các tài liệu thường xuyên hơn sẽ chia sẻ điều khoản, và do đó tốt hơn một phân nhóm có thể đại diện cho mức độ tương đồng giữa các tài liệu. Trong một so sánh báo cáo của các phương pháp này, các biện pháp hạn mật độ tương quan tốt nhất với hiệu quả của các cụm tìm kiếm. [Willetts, IP & M, 1988]
đang được dịch, vui lòng đợi..