Phân phối thu thập công cụChúng tôi đã đề cập rằng các chủ đề của một trình thu thập có thể chạy theo quá trình khác nhau, mỗi lúc một nút khác nhau của một hệ thống thu thập phân phối. Phân phối như vậy là rất cần thiết cho rộng; nó cũng có thể sử dụng trong một hệ thống thu thập thông tin về mặt địa lý phân phối nơi mỗi nút thu thập dữ liệu các máy chủ "gần" nó. Phân vùng các máy chủ được thu thập trong số các nút thu thập thông tin có thể được thực hiện bởi một hàm băm, hoặc bởi một số specifically thêm phù hợp với chính sách. Ví dụ, chúng tôi có thể xác định vị trí một nút thu thập ở châu Âu để tập trung vào lĩnh vực châu Âu, mặc dù điều này là không đáng tin cậy vì nhiều lý do-các tuyến đường gói dữ liệu đưa qua Internet làm không phải luôn luôn gần gũi địa lý reflect, và trong bất kỳ trường hợp nào là tên miền của máy chủ lưu trữ một không không phải luôn luôn reflect vị trí vật lý của nó. Làm thế nào để các nút khác nhau của một trình thu thập phân phối giao tiếp và chia sẻ URL? Ý tưởng là để nhân rộng flow hình 20,1 tại mỗi node, với một sự khác biệt quan trọng: sau the URL filter, chúng tôi sử dụng một splitter máy chủ để gửi mỗi URL còn sống sót để nút thu thập chịu trách nhiệm về URL; thusthesetofhostsbeingcrawledispartitionedamongthenodes. ThismodifiedflowisshowninFigure20.2.The đầu ra của máy chủ lưu trữ splitter đi vào các khối khử trùng lặp URL của nhau nút trong hệ thống phân phối. Các mô-đun "Nội dung Seen?" trong kiến trúc phân phối của con số 20,2 là, Tuy nhiên, nên rắc rối bởi một số yếu tố:
đang được dịch, vui lòng đợi..
