Web crawlingis quá trình mà chúng tôi thu thập các trang từ trang Web để chỉ
họ và hỗ trợ một công cụ tìm kiếm. Mục tiêu của bò là một cách nhanh chóng và
hiệu quả thu thập càng nhiều các trang web hữu ích nhất có thể, cùng với các
cấu trúc liên kết kết nối giữa chúng. Trong chương 19, chúng ta đã nghiên cứu sự phức tạp của các Web bắt nguồn từ sự sáng tạo của mình bằng hàng triệu thiếu sự phối hợp
các cá nhân. Trong chương này, chúng ta nghiên cứu những khó khăn do cho bò
Web. Trọng tâm của chương này là các thành phần hiển thị trong Figure19.7as
web crawler; đôi khi nó được gọi là một con nhện. web crawler
nhện
Mục tiêu của chương này không phải là để mô tả làm thế nào để xây dựng các trình thu thập cho
một quy mô đầy đủ công cụ tìm kiếm web thương mại. Thay vào đó, chúng tôi tập trung vào một loạt các
vấn đề mang tính tổng quát để thu thập dữ liệu từ quy mô dự án sinh viên cho các dự án nghiên cứu đáng kể. Chúng ta bắt đầu (Section20.1.1) bằng cách liệt kê ước nguyện cho web
crawler, và sau đó thảo luận trong Section20.2how mỗi vấn đề được giải quyết. Phần còn lại của chương này mô tả kiến trúc và một số
chi tiết thực hiện cho một trình thu thập web phân phối đáp ứng các tính năng này. Section20.3discusses phân phối các chỉ số trên nhiều máy cho
một thực hiện web quy mô.
đang được dịch, vui lòng đợi..
