Thu thập dữ liệuDoc robot URLFP của mẫu thiết lập Con số 20,1 kiến trúc thu thập thông tin cơ bản.Hoạt động cơ bản của bất kỳ thu thập thông tin siêu văn bản (cho dù cho trang Web, một in¬tranet, hoặc bộ sưu tập tài liệu từ phải sang) là như sau. Thu thập công cụ bắt đầu với một hoặc nhiều URL mà tạo thành một tập hợp hạt giống. Nó chọn một URL từ này tập hợp hạt giống, sau đó fetches trang web tại URL đó. Trang đã tải sau đó phân tích, để trích xuất các văn bản và các liên kết từ trang (mỗi trong số đó chỉ đến một URL). Văn bản được giải nén là ăn cho một chỉ mục văn bản (được mô tả trong chương 4 và 5). Các liên kết được trích xuất (đường dẫn URL) sau đó được bổ sung vào một URL biên giới, trong đó mọi lúc bao gồm URL trang tương ứng mà vẫn chưa được tải về bằng cách thu thập công cụ. Ban đầu, biên giới URL có chứa hạt giống tập; khi trang được tải về, các URL tương ứng sẽ được xóa khỏi biên giới URL. Toàn bộ quá trình có thể được xem như vượt qua biểu đồ web (xem chương 19). Năm liên tục thu thập dữ liệu, URL của một trang đã tải đưa trở lại vào biên giới cho lấy một lần nữa trong tương lai.
đang được dịch, vui lòng đợi..
