Sau khi N-th (cuối cùng) lấy tài liệu đã được xử lý, tất cả các tài liệu N đã được nhóm; quá trình phân nhóm STC được hoàn thành. Sau đó người dùng có thể duyệt các cụm, đánh giá trên cơ sở của các nhãn của họ mà có nhiều khả năng chứa các tài liệu có liên quan. (Zamir giả thiết kích cỡ mà các cụm từ mà gán cho một cluster sẽ chứng minh mô tả hiệu quả các nội dung của cụm đó để duyệt nhân lực hiệu quả, nhưng niềm tin này vẫn chưa được thử nghiệm trong nghiên cứu báo cáo.) Khi cô ấy tìm thấy cụm hứa hẹn nhất, người dùng có thể "sâu" và nhìn vào tiêu đề hoặc bất cứ điều gì "đoạn" khác động cơ Web đã trở lại. Khi cô tìm thấy một thú vị "đoạn", cô có thể đi sâu hơn nữa để xem xét đầy đủ các văn bản của các trang tương ứng. Zamir giả định rằng ngay cả ở mức độ cluster, số lượng các thực được tạo ra bởi STC sẽ lớn hơn so với những người sử dụng có thể thoải mái duyệt. Vì vậy, ông đứng tập cuối cùng của các cụm, mỗi cụm chỉ định một số điểm "dựa trên điểm số của các cụm cơ sở của nó, và chồng chéo của họ." Do đó, người sử dụng chỉ phải (được phép?) Duyệt p cụm tốt nhất. Một lần nữa, "tốt nhất" là một thước đo chất lượng cluster, ví dụ, số lượng, kích thước và sự chồng chéo của các cụm cơ sở thành phần của nó (và do đó sự gắn kết của nó), chiều dài của các cụm từ mà nhãn của nó (các cụm từ còn có khả năng được mô tả nhiều hơn), vv Cụm liên quan được xác định một cách tương tác của người sử dụng của con người duyệt web. Các trình duyệt người nhìn thấy số lượng tài liệu trong mỗi cụm, và các cụm từ của cụm cơ sở của nó.
đang được dịch, vui lòng đợi..
