Tính năng một trình thu thập phải cung cấp
Chúng tôi liệt kê các ước nguyện cho trình thu thập web trong hai loại: các tính năng mà trình thu thập web phải cung cấp, tiếp theo là tính năng mà họ cần cung cấp.
Mạnh mẽ: The Web chứa các máy chủ tạo ra bẫy nhện, đó là máy phát điện của các trang web đó lừa crawlers thành bị mắc kẹt fetch¬ing một số lượng vô hạn của các trang trong một lĩnh vực cụ thể. Crawlers phải được thiết kế để chống chịu được các bẫy như vậy. Không phải tất cả các bẫy như vậy là độc hại; một số là các tác dụng phụ vô tình bị lỗi trang web phát triển.
lịch sự: máy chủ Web có cả những chính sách tiềm ẩn và rõ ràng điều chỉnh tốc độ mà một trình thu thập có thể truy cập chúng. Các chính sách này lịch sự phải được tôn trọng.
đang được dịch, vui lòng đợi..
