20.2.3 The URL frontierThe URL frontier at a node is given a URL by it dịch - 20.2.3 The URL frontierThe URL frontier at a node is given a URL by it Việt làm thế nào để nói

20.2.3 The URL frontierThe URL fron

20.2.3 The URL frontier
The URL frontier at a node is given a URL by its crawl process (or by the host splitter of another crawl process). It maintains the URLs in the frontier and regurgitates them in some order whenever a crawler thread seeks a URL. Two important considerations govern the order in which URLs are returned by the frontier. First, high-quality pages that change frequently should be prioritized for frequent crawling. Thus, the priority of a page should be a function of both its change rate and its quality (using some reasonable quality estimate). The combination is necessary because a large number of spam pages change completely on every fetch. The second consideration is politeness: We must avoid repeated fetch re quests to a host within a short time span.The likelihood of this is exacerbated because of a form of locality of reference; many URLs link to other URLs at the same host. As a result, a URL frontier implemented as a simple priority queue might result in a burst of fetch requests to a host. This might occur even if we were to constrain the crawler so that at most one thread could fetch from any single host at any time. A common heuristic is to insert a gap between successive fetch requests to a host that is an order of magnitude larger than the time taken for the most recent fetch from that host. Figure 20.3 shows a polite and prioritizing implementation of a URL frontier.Its goals are to ensure that(i)only one connection is open at a time to any host, (ii) a waiting time of a few seconds occurs between successive requests to a host, and (iii) high-priority pages are crawled preferentially.
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
20.2.3 The URL frontierThe URL frontier at a node is given a URL by its crawl process (or by the host splitter of another crawl process). It maintains the URLs in the frontier and regurgitates them in some order whenever a crawler thread seeks a URL. Two important considerations govern the order in which URLs are returned by the frontier. First, high-quality pages that change frequently should be prioritized for frequent crawling. Thus, the priority of a page should be a function of both its change rate and its quality (using some reasonable quality estimate). The combination is necessary because a large number of spam pages change completely on every fetch. The second consideration is politeness: We must avoid repeated fetch re quests to a host within a short time span.The likelihood of this is exacerbated because of a form of locality of reference; many URLs link to other URLs at the same host. As a result, a URL frontier implemented as a simple priority queue might result in a burst of fetch requests to a host. This might occur even if we were to constrain the crawler so that at most one thread could fetch from any single host at any time. A common heuristic is to insert a gap between successive fetch requests to a host that is an order of magnitude larger than the time taken for the most recent fetch from that host. Figure 20.3 shows a polite and prioritizing implementation of a URL frontier.Its goals are to ensure that(i)only one connection is open at a time to any host, (ii) a waiting time of a few seconds occurs between successive requests to a host, and (iii) high-priority pages are crawled preferentially.
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
20.2.3 Các biên giới
URL, đường biên giới URL tại một nút được cho một URL của quá trình crawl của nó (hoặc bởi các splitter chủ của một quá trình thu thập dữ liệu). Nó duy trì các URL trong biên giới và regurgitates chúng theo một trật tự bất cứ khi nào một sợi xích tìm một URL. Hai cân nhắc quan trọng chi phối thứ tự mà các URL được trả về bởi các biên giới. Đầu tiên, trang chất lượng cao mà thay đổi thường xuyên nên được ưu tiên cho bò thường xuyên. Do đó, các ưu tiên của một trang nên có một chức năng của cả hai thay đổi tỷ lệ của nó và chất lượng của nó (bằng cách sử dụng một số ước tính chất lượng hợp lý). Sự kết hợp là cần thiết vì một số lượng lớn các trang thư rác hoàn toàn thay đổi trên mỗi lấy. Việc xem xét thứ hai là lịch sự: Chúng ta phải tránh lặp lại nhiệm vụ lấy lại đến một máy chủ trong một thời gian ngắn span.The khả năng này càng trầm trọng hơn vì một hình thức của địa phương tham chiếu; nhiều URL liên kết đến các URL khác tại cùng một máy chủ. Kết quả là, một biên giới URL thực hiện như một hàng đợi ưu tiên đơn giản có thể dẫn đến sự bùng nổ của lấy yêu cầu đến một máy chủ. Điều này có thể xảy ra ngay cả khi chúng tôi đã có để hạn chế các trình thu thập để ở nhất một thread có thể lấy từ bất kỳ máy chủ duy nhất bất cứ lúc nào. Một heuristic, phổ biến là để chèn một khoảng cách giữa tiếp lấy yêu cầu đến một máy chủ đó là một đơn đặt hàng của các cường độ lớn hơn so với thời gian thực hiện gần đây nhất lấy từ máy chủ đó. Hình 20.3 cho thấy một thực hiện lịch sự và ưu tiên của một URL mục tiêu frontier.Its là để đảm bảo rằng (i) chỉ có một kết nối được mở tại một thời gian để lưu trữ bất kỳ, (ii) một thời gian chờ đợi của một vài giây xảy ra giữa các yêu cầu liên tiếp để một lưu trữ, và (iii) các trang ưu tiên cao được ưu tiên thu thập thông tin.
đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2025 I Love Translation. All reserved.

E-mail: