20,1 tổng quanWeb thu thập dữ liệu là quá trình mà chúng tôi thu thập các trang từ trang Web lập chỉ mục themandsupportasearchengine. Theobjectiveofcrawlingistoquicklyand efficiently thu thập như nhiều trang web hữu ích nhất có thể, cùng với cấu trúc liên kết liên kết nối chúng. Trong chương 19, chúng tôi nghiên cứu các cá nhân complexitiesoftheWebstemmingfromitscreationbymillionsofuncoordinated. Trong chương này, chúng tôi nghiên cứu difficulties kết quả cho thu thập dữ liệu các trang Web. Trọng tâm của chương này là thành phần Hiển thị trong hình 19.7 như web thu thập thông tin; nó đôi khi được gọi đến như một con nhện thu thập spider.web mục đích của chương này là không để mô tả làm thế nào để xây dựng thu thập thông tin cho công cụ tìm kiếm web thương mại quy mô đầy đủ. Chúng tôi thay vì tập trung vào một loạt các vấn đề chung để thu thập từ quy mô dự án sinh viên cho các dự án nghiên cứu đáng kể. Chúng tôi bắt đầu (phần 20.1.1) theo danh sách desiderata cho trình thu thập web, và sau đó thảo luận trong phần 20,2 như thế nào mỗi người trong số những vấn đề này được giải quyết. Phần còn lại của chương này mô tả các kiến trúc và thực hiện một số chi tiết cho một trình thu thập web phân phối satisfies mà các tính năng này. Phần 20.3 thảo luận về chỉ số phân phối trên nhiều máy một thực hiện quy mô web.
đang được dịch, vui lòng đợi..
