20.2.3 Các biên giới
URL, đường biên giới URL tại một nút được cho một URL của quá trình crawl của nó (hoặc bởi các splitter chủ của một quá trình thu thập dữ liệu). Nó duy trì các URL trong biên giới và regurgitates chúng theo một trật tự bất cứ khi nào một sợi xích tìm một URL. Hai cân nhắc quan trọng chi phối thứ tự mà các URL được trả về bởi các biên giới. Đầu tiên, trang chất lượng cao mà thay đổi thường xuyên nên được ưu tiên cho bò thường xuyên. Do đó, các ưu tiên của một trang nên có một chức năng của cả hai thay đổi tỷ lệ của nó và chất lượng của nó (bằng cách sử dụng một số ước tính chất lượng hợp lý). Sự kết hợp là cần thiết vì một số lượng lớn các trang thư rác hoàn toàn thay đổi trên mỗi lấy. Việc xem xét thứ hai là lịch sự: Chúng ta phải tránh lặp lại nhiệm vụ lấy lại đến một máy chủ trong một thời gian ngắn span.The khả năng này càng trầm trọng hơn vì một hình thức của địa phương tham chiếu; nhiều URL liên kết đến các URL khác tại cùng một máy chủ. Kết quả là, một biên giới URL thực hiện như một hàng đợi ưu tiên đơn giản có thể dẫn đến sự bùng nổ của lấy yêu cầu đến một máy chủ. Điều này có thể xảy ra ngay cả khi chúng tôi đã có để hạn chế các trình thu thập để ở nhất một thread có thể lấy từ bất kỳ máy chủ duy nhất bất cứ lúc nào. Một heuristic, phổ biến là để chèn một khoảng cách giữa tiếp lấy yêu cầu đến một máy chủ đó là một đơn đặt hàng của các cường độ lớn hơn so với thời gian thực hiện gần đây nhất lấy từ máy chủ đó. Hình 20.3 cho thấy một thực hiện lịch sự và ưu tiên của một URL mục tiêu frontier.Its là để đảm bảo rằng (i) chỉ có một kết nối được mở tại một thời gian để lưu trữ bất kỳ, (ii) một thời gian chờ đợi của một vài giây xảy ra giữa các yêu cầu liên tiếp để một lưu trữ, và (iii) các trang ưu tiên cao được ưu tiên thu thập thông tin.
đang được dịch, vui lòng đợi..
