in scoring – such as idf – must be

in scoring – such as idf – must be computed across the entire document collection even though the index at any single node only contains a subset of the documents. These are computed by distributed “background” processes that periodically refresh the node indexes with fresh global statistics. How do we decide the partition of documents to nodes? Based on our development of the crawler architecture in Section 20.2.1, one simple approach would be to assign all pages from a host to a single node. This partitioning could follow the partitioning of hosts to crawler nodes.A danger of such partitioning is that,on many queries,a preponderance of there sults would come from documents at a small number of hosts (and, hence, a small number of index nodes). A hash of each URL into the space of index nodes results in a more uniform distribution of query time computation across nodes. At query time, the query is broadcast to each of the nodes, with the top k results from each node being merged to ﬁnd the top k documents for the query. A common implementation heuristic is to partition the document collection into indexes of documents that are more likely to score highly on most queries (using, for instance, techniques in Chapter 21) and low-scoring indexes with the remaining documents. We only search the low-scoring indexes when there are too few matches in the high-scoring indexes, as described in Section 7.2.1.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

trong ghi – chẳng hạn như idf-phải được tính trên bộ sưu tập toàn bộ tài liệu ngay cả khi chỉ số tại bất kỳ nút duy nhất chỉ có một tập hợp con của các tài liệu. Đây tính toán bằng quá trình phân phối "nền" theo định kỳ làm mới chỉ số nút với số liệu thống kê toàn cầu tươi. Làm thế nào để chúng tôi có thể quyết định phân chia tài liệu cho nút? Dựa trên chúng tôi phát triển của kiến trúc thu thập thông tin trong phần 20.2.1, một cách tiếp cận đơn giản sẽ chỉ định tất cả các trang từ một máy chủ lưu trữ một nút duy nhất. Phân vùng này có thể làm theo các phân vùng của máy chủ để thu thập các nút. Một mối nguy hiểm của phân vùng như vậy là rằng, trên nhiều truy vấn, một ưu thế của có sults sẽ đến từ các tài liệu tại một số ít các máy chủ (và, do đó, một số chỉ số nút nhỏ). Một băm của mỗi URL vào không gian của chỉ số nút kết quả trong một phân phối thống nhất hơn của tính toán thời gian truy vấn trên nút. Tại thời gian truy vấn, truy vấn được phát sóng cho mỗi của các nút, với kết quả hàng đầu k từ mỗi nút được sáp nhập để nhiều tài liệu hàng đầu k cho các truy vấn. Heuristic thực hiện phổ biến là để phân vùng bộ sưu tập tài liệu vào các chỉ số của tài liệu mà có nhiều khả năng để điểm cao trên hầu hết các truy vấn (bằng cách sử dụng, ví dụ, các kỹ thuật trong chương 21) và ghi bàn thấp chỉ số với các tài liệu còn lại. Chúng tôi chỉ tìm kiếm các chỉ số ghi bàn thấp khi có quá ít trận đấu trong chỉ số ghi bàn cao, như được diễn tả trong phần 7.2.1.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

trong ghi bàn - như idf - phải được tính trên toàn bộ bộ sưu tập tài liệu mặc dù các chỉ số tại bất kỳ nút duy nhất chỉ chứa một tập hợp con của các tài liệu. Đây là những tính bằng cách phân phối "nền" quy trình mà theo định kỳ làm mới các chỉ số nút với số liệu thống kê mới toàn cầu. Làm thế nào để chúng ta quyết định phân vùng của tài liệu cho nút? Dựa trên sự phát triển của chúng ta về kiến trúc thu thập trong phần 20.2.1, một cách tiếp cận đơn giản có thể chỉ định tất cả các trang từ một máy chủ để một nút duy nhất. Phân vùng này có thể thực hiện theo các phân vùng của máy chủ để chạy xích nodes.A nguy hiểm của phân vùng đó là, trên nhiều truy vấn, một ưu thế của có sults sẽ đến từ tài liệu ở một số máy cụ thể (và, do đó, một số lượng nhỏ các nút chỉ ). Một băm của mỗi URL vào không gian của các nút chỉ số kết quả trong một phân bố đồng đều hơn của truy vấn thời gian tính toán trên các nút. Vào thời gian truy vấn, truy vấn được phát sóng vào mỗi nút, với kết quả k đầu từ mỗi nút được sáp nhập để fi nd các tài liệu k đầu cho truy vấn. Một heuristic, thực hiện phổ biến là để phân vùng các bộ sưu tập tài liệu vào danh mục các tài liệu mà có nhiều khả năng điểm số cao trên hầu hết các truy vấn (sử dụng, ví dụ, các kỹ thuật trong Chương 21) và chỉ số có điểm thấp với các tài liệu còn lại. Chúng tôi chỉ tìm kiếm các chỉ số có điểm thấp khi có quá ít các trận đấu ở các chỉ số cao điểm, như được mô tả trong mục 7.2.1.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.