Distributing the crawlerWe have mentioned that the threads in a crawle dịch - Distributing the crawlerWe have mentioned that the threads in a crawle Việt làm thế nào để nói

Distributing the crawlerWe have men

Distributing the crawler
We have mentioned that the threads in a crawler could run under different processes, each at a different node of a distributed crawling system. Such distribution is essential for scaling; it can also be of use in a geographically distributed crawler system where each node crawls hosts “near”it.Partitioning the hosts being crawled among the crawler nodes can be done by a hash function, or by some more specifically tailored policy. For instance, we may locate a crawler node in Europe to focus on European domains,although this is not dependable for several reasons – the routes that packets take through the Internet do not always reflect geographic proximity, and in any case the domain of a host does not always reflect its physical location. How do the various nodes of a distributed crawler communicate and share URL ? The idea is to replicate the flow of Figure 20.1 at each node, with one essential difference: Following the URL filter, we use a host splitter to dispatch each surviving URL to the crawler node responsible for the URL; thusthesetofhostsbeingcrawledispartitionedamongthenodes.ThismodifiedflowisshowninFigure20.2.The output of the host splitter goes into the duplicate URL eliminator block of each other node in the distributed system. The “Content Seen?” module in the distributed architecture of Figure 20.2 is, however, complicated by several factors:
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
Phân phối thu thập công cụChúng tôi đã đề cập rằng các chủ đề của một trình thu thập có thể chạy theo quá trình khác nhau, mỗi lúc một nút khác nhau của một hệ thống thu thập phân phối. Phân phối như vậy là rất cần thiết cho rộng; nó cũng có thể sử dụng trong một hệ thống thu thập thông tin về mặt địa lý phân phối nơi mỗi nút thu thập dữ liệu các máy chủ "gần" nó. Phân vùng các máy chủ được thu thập trong số các nút thu thập thông tin có thể được thực hiện bởi một hàm băm, hoặc bởi một số specifically thêm phù hợp với chính sách. Ví dụ, chúng tôi có thể xác định vị trí một nút thu thập ở châu Âu để tập trung vào lĩnh vực châu Âu, mặc dù điều này là không đáng tin cậy vì nhiều lý do-các tuyến đường gói dữ liệu đưa qua Internet làm không phải luôn luôn gần gũi địa lý reflect, và trong bất kỳ trường hợp nào là tên miền của máy chủ lưu trữ một không không phải luôn luôn reflect vị trí vật lý của nó. Làm thế nào để các nút khác nhau của một trình thu thập phân phối giao tiếp và chia sẻ URL? Ý tưởng là để nhân rộng flow hình 20,1 tại mỗi node, với một sự khác biệt quan trọng: sau the URL filter, chúng tôi sử dụng một splitter máy chủ để gửi mỗi URL còn sống sót để nút thu thập chịu trách nhiệm về URL; thusthesetofhostsbeingcrawledispartitionedamongthenodes. ThismodifiedflowisshowninFigure20.2.The đầu ra của máy chủ lưu trữ splitter đi vào các khối khử trùng lặp URL của nhau nút trong hệ thống phân phối. Các mô-đun "Nội dung Seen?" trong kiến trúc phân phối của con số 20,2 là, Tuy nhiên, nên rắc rối bởi một số yếu tố:
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
Phân phối xích
Chúng tôi đã đề cập rằng các chủ đề trong một trình thu thập có thể chạy theo các quá trình khác nhau, mỗi một nút khác nhau của một hệ thống thu thập dữ liệu phân tán. Phân phối như thế là điều cần thiết để nhân rộng; nó cũng có thể được sử dụng trong một hệ thống thu thập thông tin địa lý phân phối mà mỗi nút trườn hosts "gần" it.Partitioning các host được thu thập thông giữa các nút bánh xích có thể được thực hiện bằng một hàm băm, hoặc bằng một số chính sách đặc hiệu hơn phù fi biệt. Ví dụ, chúng ta có thể xác định vị trí một nút thu thập ở châu Âu để tập trung vào các lĩnh vực của châu Âu, mặc dù điều này là không đáng tin cậy vì nhiều lý do - các tuyến đường mà gói tin đi qua mạng Internet không phải lúc nào lại fl ect gần gũi về địa lý, và trong trường hợp bất kỳ tên miền của một máy chủ không phải lúc nào lại fl ect vị trí vật lý của nó. Làm thế nào để các nút khác nhau của một trình thu thập phân giao tiếp và chia sẻ URL? Ý tưởng là để nhân rộng các fl ow của Hình 20.1 tại mỗi nút, với một sự khác biệt quan trọng: Sau lter URL fi, chúng tôi sử dụng một splitter máy chủ để gửi mỗi URL còn sống sót đến nút bánh xích chịu trách nhiệm về các URL; thusthesetofhostsbeingcrawledispartitionedamongthenodes.Thismodi fi ed fl owisshowninFigure20.2.The đầu ra của splitter máy chủ đi vào các khối URL khử trùng lặp của mỗi nút khác trong hệ thống phân phối. Các module "? Content Seen" trong kiến trúc phân tán của Hình 20.2 là, tuy nhiên, phức tạp do một số yếu tố:
đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2025 I Love Translation. All reserved.

E-mail: