in scoring – such as idf – must be

in scoring – such as idf – must be computed across the entire document collection even though the index at any single node only contains a subset of the documents. These are computed by distributed “background” processes that periodically refresh the node indexes with fresh global statistics. How do we decide the partition of documents to nodes? Based on our development of the crawler architecture in Section 20.2.1, one simple approach would be to assign all pages from a host to a single node. This partitioning could follow the partitioning of hosts to crawler nodes.A danger of such partitioning is that,on many queries,a preponderance of there sults would come from documents at a small number of hosts (and, hence, a small number of index nodes). A hash of each URL into the space of index nodes results in a more uniform distribution of query time computation across nodes. At query time, the query is broadcast to each of the nodes, with the top k results from each node being merged to ﬁnd the top k documents for the query. A common implementation heuristic is to partition the document collection into indexes of documents that are more likely to score highly on most queries (using, for instance, techniques in Chapter 21) and low-scoring indexes with the remaining documents. We only search the low-scoring indexes when there are too few matches in the high-scoring indexes, as described in Section 7.2.1.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

trong ghi bàn - như idf - phải được tính trên toàn bộ bộ sưu tập tài liệu mặc dù các chỉ số tại bất kỳ nút duy nhất chỉ chứa một tập hợp con của các tài liệu. Đây là những tính bằng cách phân phối "nền" quy trình mà theo định kỳ làm mới các chỉ số nút với số liệu thống kê mới toàn cầu. Làm thế nào để chúng ta quyết định phân vùng của tài liệu cho nút? Dựa trên sự phát triển của chúng ta về kiến trúc thu thập trong phần 20.2.1, một cách tiếp cận đơn giản có thể chỉ định tất cả các trang từ một máy chủ để một nút duy nhất. Phân vùng này có thể thực hiện theo các phân vùng của máy chủ để chạy xích nodes.A nguy hiểm của phân vùng đó là, trên nhiều truy vấn, một ưu thế của có sults sẽ đến từ tài liệu ở một số máy cụ thể (và, do đó, một số lượng nhỏ các nút chỉ ). Một băm của mỗi URL vào không gian của các nút chỉ số kết quả trong một phân bố đồng đều hơn của truy vấn thời gian tính toán trên các nút. Vào thời gian truy vấn, truy vấn được phát sóng vào mỗi nút, với kết quả k đầu từ mỗi nút được sáp nhập để fi nd các tài liệu k đầu cho truy vấn. Một heuristic, thực hiện phổ biến là để phân vùng các bộ sưu tập tài liệu vào danh mục các tài liệu mà có nhiều khả năng điểm số cao trên hầu hết các truy vấn (sử dụng, ví dụ, các kỹ thuật trong Chương 21) và chỉ số có điểm thấp với các tài liệu còn lại. Chúng tôi chỉ tìm kiếm các chỉ số có điểm thấp khi có quá ít các trận đấu ở các chỉ số cao điểm, như được mô tả trong mục 7.2.1.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.