trong ghi bàn - như idf - phải được tính trên toàn bộ bộ sưu tập tài liệu mặc dù các chỉ số tại bất kỳ nút duy nhất chỉ chứa một tập hợp con của các tài liệu. Đây là những tính bằng cách phân phối "nền" quy trình mà theo định kỳ làm mới các chỉ số nút với số liệu thống kê mới toàn cầu. Làm thế nào để chúng ta quyết định phân vùng của tài liệu cho nút? Dựa trên sự phát triển của chúng ta về kiến trúc thu thập trong phần 20.2.1, một cách tiếp cận đơn giản có thể chỉ định tất cả các trang từ một máy chủ để một nút duy nhất. Phân vùng này có thể thực hiện theo các phân vùng của máy chủ để chạy xích nodes.A nguy hiểm của phân vùng đó là, trên nhiều truy vấn, một ưu thế của có sults sẽ đến từ tài liệu ở một số máy cụ thể (và, do đó, một số lượng nhỏ các nút chỉ ). Một băm của mỗi URL vào không gian của các nút chỉ số kết quả trong một phân bố đồng đều hơn của truy vấn thời gian tính toán trên các nút. Vào thời gian truy vấn, truy vấn được phát sóng vào mỗi nút, với kết quả k đầu từ mỗi nút được sáp nhập để fi nd các tài liệu k đầu cho truy vấn. Một heuristic, thực hiện phổ biến là để phân vùng các bộ sưu tập tài liệu vào danh mục các tài liệu mà có nhiều khả năng điểm số cao trên hầu hết các truy vấn (sử dụng, ví dụ, các kỹ thuật trong Chương 21) và chỉ số có điểm thấp với các tài liệu còn lại. Chúng tôi chỉ tìm kiếm các chỉ số có điểm thấp khi có quá ít các trận đấu ở các chỉ số cao điểm, như được mô tả trong mục 7.2.1.
đang được dịch, vui lòng đợi..
