Điều này, có vẻ đơn giản, traversal đệ quy của đồ thị web được compli¬cated bởi nhiều nhu cầu về một hệ thống thu thập dữ liệu web thực hiện: thu thập phải được phân bố, khả năng mở rộng, hiệu quả, lịch sự, mạnh mẽ, và mở rộng trong khi tìm nạp trang chất lượng cao. Chúng ta xem xét tác động của từng vấn đề.
Mercator điều trị của chúng tôi sau thiết kế của bánh xích Mercator đã hình thành cơ sở của một số nghiên cứu và thương mại thu thập. Như một điểm tham khảo, lấy một tỷ trang (một phần nhỏ của Web tĩnh hiện nay) trong thu thập dữ liệu kéo dài một tháng đòi hỏi lấy vài trăm trang mỗi giây. Chúng tôi sẽ xem làm thế nào để sử dụng một thiết kế đa luồng để giải quyết một số vướng mắc trong các hệ thống thu thập thông tin tổng thể để đạt được điều này lấy lãi.
Trước khi tiến hành để mô tả chi tiết này, chúng tôi nhắc lại cho độc giả có thể cố gắng để xây dựng trình thu thập một số tính chất cơ bản bất kỳ xích không chuyên nên đáp ứng :
đang được dịch, vui lòng đợi..
