Mỗi người trong hàng đợi trở lại B duy trì invariants sau: (i) nó là nonempty trong khi thu thập dữ liệu tiến hành và (ii) nó chỉ chứa URL từ asinglehost.1 một bảng phụ trợ T (Figure20.4) được sử dụng để duy trì ánh xạ từ các máy chủ để trở lại hàng đợi. Bất cứ khi nào một hàng đợi trở lại là trống rỗng, và đang là refilled từ một hàng đợi trước bảng T phải được Cập Nhật cho phù hợp. Ngoài ra, chúng tôi duy trì một đống với một mục nhập cho mỗi hàng đợi trở lại, các mục nhập là theear liest timete mà tại đó các máy chủ tương ứng với hàng đợi mà có thể liên lạc lại. Một chủ đề thu thập thông tin yêu cầu một URL từ biên giới chất chiết xuất từ gốc rễ của đống này và (nếu cần thiết) chờ đợi cho đến khi các mục nhập thời gian tương ứng te. Nó sau đó mất URL u ở phần đầu của j trở lại hàng đợi tương ứng với gốc trích xuất đống, và tiền để lấy URL u. Sau khi tải u, các chủ đề gọi kiểm tra cho dù j là sản phẩm nào. Nếu vậy, nó chọn một hàng đợi trước và chất chiết xuất từ đầu một URL v. Sự lựa chọn hàng chờ trước thiên vị (thường là do một quá trình ngẫu nhiên) đối với hàng đợi của ưu tiên cao hơn, đảm bảo rằng URL của flow ưu tiên cao hơn một cách nhanh chóng vào hàng đợi trở lại. Chúng tôi kiểm tra v để kiểm tra xem đã có một hàng đợi trở lại nắm giữ URL từ máy chủ của nó. Nếu vậy, v được thêm vào hàng đợi đó và chúng tôi đạt được quay lại hàng đợi trước để nhiều một ứng cử viên URL cho chèn vào hàng đợi bây giờ có sản phẩm nào j. Quá trình này tiếp tục cho đến khi j là nonempty một lần nữa. Trong bất kỳ trường hợp nào, các chủ đề chèn một đống mục cho j với một thời gian sớm nhất mới te dựa vào các đặc tính của URL trong j mà cuối được tải về (chẳng hạn như khi chủ của nó đã được cuối liên lạc cũng như thời gian thực hiện để tìm nạp cuối), sau đó tiếp tục với chế biến của nó. Ví dụ, các mục nhập mới te có thể là thời gian hiện tại cộng với mười lần tìm nạp lần. Số lượng mặt hàng đợi, cùng với chính sách gán ưu tiên và chọn hàng đợi, xác định các thuộc tính ưu tiên, chúng tôi mong muốn xây dựng vào hệ thống. Số lượng mặt hàng đợi chi phối trong phạm vi mà chúng tôi có thể giữ cho chủ đề thu thập dữ liệu bận rộn trong khi tôn trọng lịch sự. Các nhà thiết kế của Mercator khuyên bạn nên một quy tắc thô của hàng đợi trở lại ba lần như nhiều như thu thập thông tin chủ đề.
đang được dịch, vui lòng đợi..
