Crawling
robot Doc URL
mẫu FP của thiết Hình 20.1 trình thu thập kiến trúc cơ bản. Các hoạt động cơ bản của bất kỳ trình thu thập siêu văn bản (dù cho Web, một in¬tranet, hoặc siêu văn bản thu thập tài liệu khác) như sau. Việc thu thập thông tin bắt đầu với một hoặc nhiều các URL mà tạo thành một bộ hạt giống. Nó chọn một URL từ bộ hạt giống này, sau đó tìm nạp trang web tại URL đó. Các trang lấy sau đó được phân tích cú pháp, để trích xuất cả văn bản và các liên kết từ trang (mỗi điểm đến một URL khác). Các văn bản chiết xuất được chuyển tới một indexer văn bản (được mô tả trong Chương 4 và 5). Các liên kết chiết xuất (URL) sau đó thêm vào một URL biên giới, mà ở tất cả các lần bao gồm các URL mà các trang tương ứng vẫn chưa được lấy bằng cách thu thập thông tin. Ban đầu, biên giới URL chứa các tập hạt giống; như các trang đang được lấy về, các URL tương ứng sẽ bị xóa khỏi biên giới URL. Toàn bộ quá trình có thể được xem như là đi qua đồ thị web (xem Chương 19). Trong bò liên tục, các URL của một trang lấy được thêm lại đến biên giới để lấy lại trong tương lai.
đang được dịch, vui lòng đợi..
