How to Re-visit web pagesThe optimu

How to Re-visit web pages
The optimum method to re-visit the web and maintain average freshness high of web page is to ignore the pages that change too often.
The approaches could be:
• Re-visiting all pages in the collection with the same frequency, regardless of their rates of change.
• Re-visiting more often the pages that change more frequently.
(In both cases, the repeated crawling order of pages can be done either at random or with a fixed order.)
The re-visiting methods considered here regard all pages as homogeneous in terms of quality ("all pages on the Web are worth the same"), something that is not a realistic scenario.
How to avoid overloading websites
Crawlers can retrieve data much quicker and in greater depth than human searchers, so they can have a crippling impact on the performance of a site. Needless to say if a single crawler is performing multiple requests per second and/or downloading large files, a server would have a hard time keeping up with requests from multiple crawlers.
The use of Web crawler is useful for a number of tasks, but comes with a price for the general community. The costs of using Web crawlers include:
• Network resources, as crawlers require considerable bandwidth and operate with a high degree of parallelism during a long period of time.
• Server overload, especially if the frequency of accesses to a given server is too high.
• Poorly written crawlers, which can crash servers or routers, or which download pages they cannot handle.
• Personal crawlers that, if deployed by too many users, can disrupt networks and Web servers.
To resolve this problem we can use robots exclusion protocol, also known as the robots.txt protocol.
The robots exclusion standard or robots.txt protocol is a convention to prevent cooperating web spiders and other web robots from accessing all or part of a website. We can specify the top level directory of web site in a file called robots.txt and this will prevent the access of that directory to crawler.
This protocol uses simple substring comparisons to match the patterns defined in robots.txt file. So, while using this robots.txt file we need to make sure that we use final ./. character appended to directory path. Else, files with names starting with that substring will be matched rather than directory.
Example of robots.txt files that tells all crawlers not to enter into four directories of a website:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
Web crawler architectures
A crawler must have a good crawling strategy, as noted in the previous sections, but it also needs a highly optimized architecture.
Pseudo code for a web crawler
Here's a pseudo code summary of the algorithm that can be used to implement a web crawler:
Ask user to specify the starting URL on web and file type that crawler should crawl.

Add the URL to the empty list of URLs to search.

While not empty ( the list of URLs to search )
{

Take the first URL in from the list of URLs
Mark this URL as already searched URL.

If the URL protocol is not HTTP then
break;
go back to while

If robots.txt file exist on site then
If file includes .Disallow. statement then
break;
go back to while

Open the URL

If the opened URL is not HTML file then
Break;
Go back to while

Iterate the HTML file

While the html text contains another link {

If robots.txt file exist on URL/site then
If file includes .Disallow. statement then
break;
go back to while

If the opened URL is HTML file then
If the URL isn't marked as searched then
Mark this URL as already searched URL.

Else if type of file is user requested
Add to list of files found.

}
}
Conclusion
Building an effective web crawler to solve your purpose is not a difficult task, but choosing the right strategies and building an effective architecture will lead to implementation of highly intelligent web crawler application.
________________________________________
Written by Shalin Shah, Project Leader at eInfochips Ltd. Shalin can be reached at Shalinjshah@hotmail.com

How to Re-visit web pages
The optimum method to re-visit the web and maintain average freshness high of web page is to ignore the pages that change too often. 
The approaches could be: 
• Re-visiting all pages in the collection with the same frequency, regardless of their rates of change.
• Re-visiting more often the pages that change more frequently.
(In both cases, the repeated crawling order of pages can be done either at random or with a fixed order.)
The re-visiting methods considered here regard all pages as homogeneous in terms of quality ("all pages on the Web are worth the same"), something that is not a realistic scenario. 
How to avoid overloading websites
Crawlers can retrieve data much quicker and in greater depth than human searchers, so they can have a crippling impact on the performance of a site. Needless to say if a single crawler is performing multiple requests per second and/or downloading large files, a server would have a hard time keeping up with requests from multiple crawlers. 
The use of Web crawler is useful for a number of tasks, but comes with a price for the general community. The costs of using Web crawlers include: 
• Network resources, as crawlers require considerable bandwidth and operate with a high degree of parallelism during a long period of time.
• Server overload, especially if the frequency of accesses to a given server is too high.
• Poorly written crawlers, which can crash servers or routers, or which download pages they cannot handle.
• Personal crawlers that, if deployed by too many users, can disrupt networks and Web servers.
To resolve this problem we can use robots exclusion protocol, also known as the robots.txt protocol. 
The robots exclusion standard or robots.txt protocol is a convention to prevent cooperating web spiders and other web robots from accessing all or part of a website. We can specify the top level directory of web site in a file called robots.txt and this will prevent the access of that directory to crawler. 
This protocol uses simple substring comparisons to match the patterns defined in robots.txt file. So, while using this robots.txt file we need to make sure that we use final ./. character appended to directory path. Else, files with names starting with that substring will be matched rather than directory. 
Example of robots.txt files that tells all crawlers not to enter into four directories of a website: 
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
Web crawler architectures
A crawler must have a good crawling strategy, as noted in the previous sections, but it also needs a highly optimized architecture. 
Pseudo code for a web crawler
Here's a pseudo code summary of the algorithm that can be used to implement a web crawler:
Ask user to specify the starting URL on web and file type that crawler should crawl.

Add the URL to the empty list of URLs to search.

While not empty ( the list of URLs to search )
{

Take the first URL in from the list of URLs
 Mark this URL as already searched URL.

If the URL protocol is not HTTP then
 break;
 go back to while

If robots.txt file exist on site then
 If file includes .Disallow. statement then
 break;
 go back to while
 
 Open the URL

If the opened URL is not HTML file then
 Break;
 Go back to while

Iterate the HTML file

While the html text contains another link {
 
 If robots.txt file exist on URL/site then
 If file includes .Disallow. statement then
 break;
 go back to while

If the opened URL is HTML file then
 If the URL isn't marked as searched then
 Mark this URL as already searched URL.

Else if type of file is user requested
 Add to list of files found.
 
 }
 }
Conclusion
Building an effective web crawler to solve your purpose is not a difficult task, but choosing the right strategies and building an effective architecture will lead to implementation of highly intelligent web crawler application. 
________________________________________
Written by Shalin Shah, Project Leader at eInfochips Ltd. Shalin can be reached at Shalinjshah@hotmail.com

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Làm thế nào để tái khám phá các trang webPhương pháp tối ưu để tái khám phá các trang web và duy trì thể trạng trung bình cao của trang web là để bỏ qua các trang web thay đổi quá thường xuyên. Các phương pháp tiếp cận có thể là: • Tái truy cập vào tất cả các trang trong bộ sưu tập với cùng một tần số, không phân biệt tỷ lệ của họ thay đổi.• Tái ghé thăm thường xuyên hơn các trang web mà thay đổi thường xuyên hơn.(Trong cả hai trường hợp này, lặp đi lặp lại bò thứ tự các trang có thể được thực hiện ngẫu nhiên hoặc với một trật tự cố định.)Phương pháp tái tham quan xem xét ở đây coi tất cả các trang như là đồng nhất về chất lượng ("tất cả các trang trên trang Web có giá trị như nhau"), một cái gì đó không phải là một kịch bản thực tế. Làm thế nào để tránh quá tải trang webThu thập thông tin có thể truy xuất dữ liệu nhiều nhanh hơn và sâu hơn so với tìm kiếm của con người, do đó, họ có thể có một tác động làm tê liệt các hoạt động của một trang web. Không cần phải nói nếu thu thập thông tin duy nhất thực hiện các yêu cầu nhiều mỗi giây và/hoặc tải xuống các tập tin lớn, một máy chủ sẽ có một thời gian khó giữ với yêu cầu từ trình thu thập nhiều. Việc sử dụng các trang Web thu thập thông tin hữu ích cho một số công việc, nhưng đi kèm với một mức giá cho các cộng đồng nói chung. Các chi phí của việc sử dụng trang Web thu thập thông tin bao gồm: • Tài nguyên mạng, như thu thập thông tin yêu cầu băng thông đáng kể và hoạt động với một mức độ cao của xử lý song song trong một thời gian dài.• Quá tải máy chủ, đặc biệt là nếu các tần số của các truy cập vào một máy chủ nhất định là quá cao.• Kém viết thu thập thông tin, mà có thể tai nạn máy chủ hoặc bộ định tuyến, hay mà tải về trang web mà họ không thể xử lý.• Cá nhân thu thập thông tin đó, nếu được triển khai bởi quá nhiều người dùng, có thể làm gián đoạn mạng và máy chủ Web.Để giải quyết vấn đề này, chúng tôi có thể sử dụng robot loại trừ giao thức, còn được gọi là giao thức robots.txt. Robot loại trừ tiêu chuẩn robots.txt giao thức hoặc là một hội nghị để ngăn chặn hợp tác web nhện và các robot web khác truy cập vào tất cả hay một phần của một trang web. Chúng tôi có thể chỉ định thư mục cấp cao nhất của các trang web trong một file tên robots.txt và điều này sẽ ngăn chặn truy cập thư mục đó để thu thập thông tin. Giao thức này sử dụng so sánh các xâu con đơn giản để phù hợp với các mô hình được xác định trong tập tin robots.txt. Vì vậy, trong khi sử dụng tệp robots.txt này chúng ta cần phải chắc chắn rằng chúng tôi sử dụng cuối cùng. /. nhân vật gắn vào đường dẫn thư mục. Khác, các tập tin với tên bắt đầu với chuỗi con sẽ được kết hợp chứ không phải là thư mục. Ví dụ tập tin robots.txt cho trình thu thập tất cả không phải là để tham gia vào các thư mục bốn của một trang web: Tác nhân người dùng: *Không cho phép: /cgi-bin /Không cho phép: /images/Không cho phép: /tmp/Không cho phép: /private/Trang web thu thập thông tin kiến trúcMột trình thu thập phải có một chiến lược thu thập tốt, như lưu ý ở phần trước, nhưng nó cũng cần một kiến trúc tối ưu hóa rất cao. Mã giả cho một trình thu thập webĐây là một mã giả tóm tắt của các thuật toán có thể được sử dụng để thực hiện một trình thu thập web:Yêu cầu người sử dụng để chỉ định URL bắt đầu trang web và tệp nhập mà thu thập thông tin cần thu thập thông tin. Thêm URL vào danh sách rỗng các URL để tìm kiếm. Trong khi không phải sản phẩm nào (danh sách các URL để tìm kiếm){ Hãy đầu tiên URL từ danh sách các URL Đánh dấu URL này như đã tìm kiếm các URL. Nếu giao thức URL không phải HTTP sau đó phá vỡ; quay trở lại trong khi Nếu tập tin robots.txt tồn tại trên trang web sau đó Nếu tập tin bao gồm. Không cho phép. tuyên bố sau đó phá vỡ; quay trở lại trong khi Mở URL Nếu URL đã mở không phải là tệp HTML sau đó Phá vỡ; Quay trở lại trong khi Iterate tệp HTML Trong khi các văn bản html có chứa một liên kết {} Nếu tập tin robots.txt tồn tại trên URL/trang web sau đó Nếu tập tin bao gồm. Không cho phép. tuyên bố sau đó phá vỡ; quay trở lại trong khi Nếu mở URL đó là tệp HTML Nếu URL không được đánh dấu là tìm kiếm sau đó Đánh dấu URL này như đã tìm kiếm các URL. Khác nếu loại tệp là người dùng yêu cầu Thêm vào danh sách các tập tin được tìm thấy. } }Kết luậnXây dựng một trình thu thập web có hiệu quả để giải quyết mục đích của bạn không phải là một nhiệm vụ khó khăn, nhưng lựa chọn chiến lược phù hợp và xây dựng một kiến trúc có hiệu quả sẽ dẫn đến việc thực hiện của ứng dụng trình thu thập web rất thông minh. ________________________________________Viết bởi Shalin Shah, nhà lãnh đạo dự án tại eInfochips ty TNHH Shalin có thể được đạt tại Shalinjshah@hotmail.com

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Làm thế nào để Re-chuyến thăm các trang web
. Các phương pháp tối ưu để thăm lại các trang web và duy trì độ tươi trung bình cao của trang web là để bỏ qua các trang web thay đổi quá thường xuyên
Các phương pháp tiếp cận có thể là:
• Re-thăm tất cả các trang trong bộ sưu tập với cùng tần số, bất kể mức giá của họ thay đổi.
• Re-thăm thường xuyên hơn các trang web thay đổi thường xuyên hơn.
(trong cả hai trường hợp, thứ tự bò lặp đi lặp lại của trang có thể được thực hiện hoặc ngẫu nhiên hoặc với một trật tự cố định.)
các lại tham quan các phương pháp xem xét ở đây coi tất cả các trang như đồng nhất về chất lượng ( "tất cả các trang trên Web có giá trị như nhau"), một cái gì đó không phải là một kịch bản thực tế.
làm thế nào để tránh quá tải các trang web
Crawlers có thể lấy dữ liệu nhanh hơn và sâu hơn hơn người tìm kiếm con người, do đó, họ có thể có một tác động làm tê liệt về hoạt động của một trang web. Không cần phải nói, nếu một trình thu thập duy nhất được thực hiện nhiều yêu cầu mỗi giây và / hoặc tải tập tin lớn, một máy chủ sẽ có một thời gian khó giữ với yêu cầu từ nhiều trình thu thập.
Việc sử dụng các trình thu thập web rất hữu ích cho một số nhiệm vụ, nhưng đi kèm với một giá cho cộng đồng nói chung. Các chi phí của việc sử dụng trình thu thập web bao gồm:
nguồn lực • Mạng, như trình thu thập yêu cầu băng thông đáng kể và hoạt động với một mức độ cao của xử lý song song trong suốt một thời gian dài.
• Server quá tải, đặc biệt là nếu tần số của các truy cập đến một máy chủ đưa ra là quá cao.
• crawlers kém bằng văn bản, có thể sụp đổ các máy chủ hoặc bộ định tuyến, hoặc có các trang download họ không thể xử lý.
• trình thu thập cá nhân rằng, nếu được triển khai bởi quá nhiều người sử dụng, có thể phá hoại mạng và máy chủ Web.
Để giải quyết vấn đề này, chúng ta có thể sử dụng giao thức loại trừ robot, cũng như các giao thức robots.txt.
các robot tiêu chuẩn loại trừ hoặc giao thức robots.txt là một quy ước để ngăn chặn hợp tác nhện web và robot web khác truy cập vào tất cả hoặc một phần của một trang web. Chúng ta có thể chỉ định thư mục cấp cao nhất của trang web trong một tập tin gọi là robots.txt và điều này sẽ ngăn chặn các truy cập của thư mục đó để thu thập thông.
Giao thức này sử dụng so sánh chuỗi đơn giản để phù hợp với mô hình định nghĩa trong file robots.txt. Vì vậy, khi sử dụng tập tin robots.txt này, chúng ta cần phải chắc chắn rằng chúng tôi sử dụng ./ thức. nhân vật nối vào đường dẫn thư mục. Khác, các tập tin có tên bắt đầu bằng chuỗi con đó sẽ phù hợp hơn là thư mục.
Ví dụ về file robots.txt mà nói với tất cả các trình thu thập không nhập vào bốn thư mục của một trang web:
User-agent: *
Disallow: / cgi-bin /
Disallow: / images /
Disallow: / tmp /
Disallow: / / tin
kiến trúc Web crawler
. một bánh xích phải có một chiến lược bò tốt, như đã nói ở phần trước, nhưng nó cũng cần một kiến trúc tối ưu hóa cao
pseudo mã cho một trình thu thập web
Dưới đây là một giả tóm lại mã của thuật toán có thể được sử dụng để thực hiện một trình thu thập web:
. Yêu cầu người sử dụng để xác định các URL bắt đầu trên trang web và loại tập tin mà trình thu thập nên thu thập thông

. Thêm URL vào danh sách sản phẩm nào của URL để tìm kiếm

khi không có sản phẩm nào (danh sách URL để tìm kiếm)
{

hãy URL đầu tiên trong từ danh sách các URL
Đánh dấu URL này như đã tìm kiếm URL.

Nếu giao thức URL không phải là HTTP sau đó
phá vỡ;
trở lại trong khi

Nếu tập tin robots.txt tồn tại trên trang web sau đó
Nếu tập tin bao gồm .Disallow. tuyên bố sau đó
phá vỡ;
trở lại trong khi mở các URL Nếu URL được mở ra không phải là tập tin HTML sau đó phá vỡ; Quay trở lại trong khi làm lại các tập tin HTML Trong khi văn bản html có chứa một liên kết { Nếu tập tin robots.txt tồn tại trên URL / trang web sau đó Nếu tập tin bao gồm .Disallow. tuyên bố sau đó phá vỡ; trở lại trong khi Nếu URL được mở ra là file HTML sau đó Nếu URL không được đánh dấu là đã tìm kiếm sau đó Mark URL này như đã tìm kiếm URL. khác nếu loại tập tin được người dùng yêu cầu Thêm vào danh sách các file được tìm thấy. } } Kết luận xây dựng một trình thu thập web hiệu quả để giải quyết mục đích của bạn không phải là một nhiệm vụ khó khăn, nhưng việc lựa chọn chiến lược đúng và xây dựng một cấu trúc hiệu quả sẽ dẫn đến việc thực hiện rất thông minh ứng dụng web crawler. ________________________________________ viết bởi Shalin Shah, trưởng dự án tại eInfochips Ltd. Shalin có thể đạt được tại Shalinjshah@hotmail.com

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.