Implementing an Effective Web Crawl

Implementing an Effective Web Crawler
Introduction

Web crawler (also known as a Web spider or Web robot) is a program or automated script which browses the World Wide Web in a methodical and automated manner.

This process is called Web crawling or spidering. Many legitimate sites, in particular search engines, use spidering as a means of providing up-to-date data. Web crawlers are mainly used to create a copy of all the visited pages for later processing by a search engine, which will index the downloaded pages to provide fast searches. Crawlers can also be used for automating maintenance tasks on a Web site, such as checking links or validating HTML codes. Also, crawlers can be used to gather specific types of information from Web pages, such as harvesting e-mail addresses (usually for spam).

A Web crawler is one type of bot, or software agent. In general, it starts with a list of URLs to visit, called the seeds. As the crawler visits these URLs, it identifies all the hyperlinks in the page and adds them to the list of URLs to visit, called the crawl frontier.
Why do we need a web crawler?

Following are some reasons to use a web crawler:

To maintain mirror sites for popular Web sites.
To test web pages and links for valid syntax and structure.
To monitor sites to see when their structure or contents change.
To search for copyright infringements.
To build a special-purpose index.for example, one that has some understanding of the content stored in multimedia files on the Web.

How does a web crawler work?

A typical web crawler starts by parsing a specified web page: noting any hypertext links on that page that point to other web pages. The Crawler then parses those pages for new links, and so on, recursively. A crawler is a software or script or automated program which resides on a single machine. The crawler simply sends HTTP requests for documents to other machines on the Internet, just as a web browser does when the user clicks on links. All the crawler really does is to automate the process of following links.

This is the basic concept behind implementing web crawler, but implementing this concept is not merely a bunch of programming. The next section describes the difficulties involved in implementing an efficient web crawler.
Difficulties in implementing efficient web crawler

There are two important characteristics of the Web that generate a scenario in which Web crawling is very difficult:

Large volume of Web pages.
Rate of change on web pages.

A large volume of web page implies that web crawler can only download a fraction of the web pages and hence it is very essential that web crawler should be intelligent enough to prioritize download.

Another problem with today.s dynamic world is that web pages on the internet change very frequently, as a result, by the time the crawler is downloading the last page from a site, the page may change or a new page has been placed/updated to the site.
Solutions - Right strategies

The difficulties in implementing efficient web crawler clearly state that bandwidth for conducting crawls is neither infinite nor free. So, it is becoming essential to crawl the web in not only a scalable, but efficient way, if some reasonable amount of quality or freshness of web pages is to be maintained. This ensues that a crawler must carefully choose at each step which pages to visit next.

Thus the implementer of a web crawler must define its behavior.

Defining the behavior of a Web crawler is the outcome of a combination of below mentioned strategies:

Selecting the better algorithm to decide which page to download.
Strategizing how to re-visit pages to check for updates.
Strategizing how to avoid overloading websites.

Selecting the right algorithm

Given the current size of the web, it is essential that the crawler program should crawl on a fraction of the web. Even large search engines in today.s dynamic world crawls fraction of web pages from web. But, a crawler should observe that the fraction of pages crawled must be most relevant pages, and not just random pages.

While selecting the search algorithm for the web crawler an implementer should keep in mind that algorithm must make sure that web pages are chosen depending upon their importance. The importance of a web page lies in its popularity in terms of links or visits, or even its URL.
Algorithm types

Path-ascending crawling

We intend the crawler to download as many resources as possible from a particular Web site. That way a crawler would ascend to every path in each URL that it intends to crawl. For example, when given a seed URL of http://foo.org/a/b/page.html, it will attempt to crawl /a/b/, /a/, and /.

The advantage with Path-ascending crawler is that they are very effective in finding isolated resources, or resources for which no inbound link would have been found in regular crawling.

Focused crawling

The importance of a page for a crawler can also

Implementing an Effective Web Crawler
Introduction

Web crawler (also known as a Web spider or Web robot) is a program or automated script which browses the World Wide Web in a methodical and automated manner.

This process is called Web crawling or spidering. Many legitimate sites, in particular search engines, use spidering as a means of providing up-to-date data. Web crawlers are mainly used to create a copy of all the visited pages for later processing by a search engine, which will index the downloaded pages to provide fast searches. Crawlers can also be used for automating maintenance tasks on a Web site, such as checking links or validating HTML codes. Also, crawlers can be used to gather specific types of information from Web pages, such as harvesting e-mail addresses (usually for spam).

A Web crawler is one type of bot, or software agent. In general, it starts with a list of URLs to visit, called the seeds. As the crawler visits these URLs, it identifies all the hyperlinks in the page and adds them to the list of URLs to visit, called the crawl frontier.
Why do we need a web crawler?

Following are some reasons to use a web crawler:

To maintain mirror sites for popular Web sites.
 To test web pages and links for valid syntax and structure.
 To monitor sites to see when their structure or contents change.
 To search for copyright infringements.
 To build a special-purpose index.for example, one that has some understanding of the content stored in multimedia files on the Web.

How does a web crawler work?

A typical web crawler starts by parsing a specified web page: noting any hypertext links on that page that point to other web pages. The Crawler then parses those pages for new links, and so on, recursively. A crawler is a software or script or automated program which resides on a single machine. The crawler simply sends HTTP requests for documents to other machines on the Internet, just as a web browser does when the user clicks on links. All the crawler really does is to automate the process of following links.

This is the basic concept behind implementing web crawler, but implementing this concept is not merely a bunch of programming. The next section describes the difficulties involved in implementing an efficient web crawler.
Difficulties in implementing efficient web crawler

There are two important characteristics of the Web that generate a scenario in which Web crawling is very difficult:

Large volume of Web pages.
 Rate of change on web pages.

A large volume of web page implies that web crawler can only download a fraction of the web pages and hence it is very essential that web crawler should be intelligent enough to prioritize download.

Another problem with today.s dynamic world is that web pages on the internet change very frequently, as a result, by the time the crawler is downloading the last page from a site, the page may change or a new page has been placed/updated to the site.
Solutions - Right strategies

The difficulties in implementing efficient web crawler clearly state that bandwidth for conducting crawls is neither infinite nor free. So, it is becoming essential to crawl the web in not only a scalable, but efficient way, if some reasonable amount of quality or freshness of web pages is to be maintained. This ensues that a crawler must carefully choose at each step which pages to visit next.

Thus the implementer of a web crawler must define its behavior.

Defining the behavior of a Web crawler is the outcome of a combination of below mentioned strategies:

Selecting the better algorithm to decide which page to download.
 Strategizing how to re-visit pages to check for updates.
 Strategizing how to avoid overloading websites.

Selecting the right algorithm

Given the current size of the web, it is essential that the crawler program should crawl on a fraction of the web. Even large search engines in today.s dynamic world crawls fraction of web pages from web. But, a crawler should observe that the fraction of pages crawled must be most relevant pages, and not just random pages.

While selecting the search algorithm for the web crawler an implementer should keep in mind that algorithm must make sure that web pages are chosen depending upon their importance. The importance of a web page lies in its popularity in terms of links or visits, or even its URL.
Algorithm types

Path-ascending crawling

We intend the crawler to download as many resources as possible from a particular Web site. That way a crawler would ascend to every path in each URL that it intends to crawl. For example, when given a seed URL of http://foo.org/a/b/page.html, it will attempt to crawl /a/b/, /a/, and /.

The advantage with Path-ascending crawler is that they are very effective in finding isolated resources, or resources for which no inbound link would have been found in regular crawling.

Focused crawling

The importance of a page for a crawler can also

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Thực hiện một trình thu thập Web có hiệu quảGiới thiệuWeb crawler (cũng được gọi là một trang Web spider hoặc Web robot) là một chương trình hay kịch bản tự động mà duyệt World Wide Web một cách tự động và phương pháp.Quá trình này được gọi là Web crawling hoặc spidering. Nhiều trang web hợp pháp, đặc biệt công cụ tìm kiếm, sử dụng spidering như một phương tiện cung cấp Cập nhật dữ liệu. Trình thu thập web chủ yếu được sử dụng để tạo ra một bản sao của tất cả các trang truy cập nhiều nhất sau đó xử lý bằng công cụ tìm kiếm, mà sẽ chỉ mục các trang web tải về để cung cấp nhanh chóng tìm kiếm. Thu thập thông tin cũng có thể được sử dụng để tự động hoá các nhiệm vụ bảo trì trên một trang Web, chẳng hạn như kiểm tra các liên kết hoặc phê chuẩn các mã HTML. Ngoài ra, thu thập thông tin có thể được sử dụng để thu thập các loại hình cụ thể của thông tin từ trang Web, chẳng hạn như thu hoạch địa chỉ e-mail (thường đối với thư rác).Một trình thu thập Web là một loại bot, hoặc đại lý phần mềm. Nói chung, nó bắt đầu với một danh sách các URL để truy cập, được gọi là các hạt. Như các trình thu thập truy cập vào các URL, nó xác định tất cả các siêu liên kết trong trang và thêm chúng vào danh sách các URL để truy cập vào, gọi là biên giới thu thập dữ liệu.Tại sao chúng tôi cần một trình thu thập web?Sau đây là một số lý do để sử dụng một trình thu thập web: Để duy trì máy nhân bản trang web cho các trang Web phổ biến. Để kiểm tra các trang web và các liên kết về cấu trúc và cú pháp hợp lệ. Để giám sát các trang web để xem khi cấu trúc hoặc nội dung của họ thay đổi. Để tìm kiếm các hành vi vi phạm bản quyền. Để xây dựng một ví dụ đặc dụng index.for, một trong đó có một số hiểu biết về các nội dung được lưu trữ trong các tập tin đa phương tiện trên Web.Một trình thu thập web như thế nào?Thu thập thông tin trang web điển hình bắt đầu bằng cách phân tích một trang web đã chỉ rõ: ghi nhận bất kỳ liên kết siêu văn bản trên trang đó trỏ đến các trang web khác. Các trình thu thập sau đó phân tích các trang cho liên kết mới, và như vậy, đệ quy. Thu thập một là một phần mềm hay kịch bản hoặc chương trình tự động cư trú trên một máy tính duy nhất. Thu thập công cụ đơn giản chỉ cần gửi yêu cầu HTTP cho các tài liệu với các máy khác trên Internet, chỉ như một trình duyệt web khi người dùng nhấp vào liên kết. Tất cả các trình thu thập thực sự có phải là tự động quá trình liên kết sau đây.Đây là khái niệm cơ bản đằng sau việc thực hiện thu thập thông tin trang web, nhưng việc thực hiện các khái niệm này là không chỉ đơn thuần là một bó của chương trình. Phần tiếp theo mô tả những khó khăn liên quan trong việc thực hiện một trình thu thập web hiệu quả.Những khó khăn trong việc thực hiện hiệu quả web crawlerHiện có hai đặc điểm quan trọng của trang Web đó tạo ra một kịch bản trong đó trang Web thu thập dữ liệu là rất khó khăn: Khối lượng lớn các trang Web. Mức độ thay đổi trên trang web.Một khối lượng lớn các trang web này ngụ ý rằng trình thu thập web chỉ có thể tải về một phần nhỏ của các trang web và do đó nó là rất cần thiết mà thu thập thông tin trang web nên được đủ thông minh để ưu tiên cho tải về.Các vấn đề khác với today.s thế giới năng động là rằng trang web trên internet thay đổi rất thường xuyên, kết quả là, vào thời điểm thu thập công cụ tải xuống trang cuối cùng từ một trang web, trang web có thể thay đổi hoặc một trang mới đã được đặt/Cập Nhật cho trang web.Giải pháp - đúng chiến lượcNhững khó khăn trong việc thực hiện hiệu quả trang web thu thập thông tin nêu rõ rằng băng thông cho tiến hành thu thập là không vô hạn, cũng không miễn phí. Vì vậy, nó trở nên cần thiết để thu thập dữ liệu các trang web trong không chỉ một cách ổn định, nhưng hiệu quả, nếu một số lượng hợp lý chất lượng hoặc thể trạng của các trang web được duy trì. Điều này nảy sinh là một trình thu thập phải cẩn thận chọn tại mỗi bước mà trang để truy cập vào tiếp theo.Vì thế công việc của một trình thu thập web phải xác định hành vi của nó.Xác định hành vi của một trình thu thập Web là kết quả của một sự kết hợp của dưới đây đề cập đến chiến lược: Việc chọn thuật toán tốt hơn để quyết định trang nào để tải về. Strategizing làm thế nào để tái truy cập vào trang kiểm tra Cập Nhật. Strategizing làm thế nào để tránh quá tải trang web.Việc chọn thuật toán đúngDo kích thước hiện tại của trang web, nó là điều cần thiết chương trình thu thập thông tin cần thu thập dữ liệu trên một phần của trang web. Thậm chí lớn tìm động cơ today.s năng động thế giới thu thập phần nhỏ của các trang web từ trang web. Tuy nhiên, một trình thu thập phải quan sát các phần của các trang thu thập thông tin phải là trang phù hợp nhất và các trang không phải chỉ là ngẫu nhiên.Trong khi lựa chọn thuật toán tìm kiếm cho các trình thu thập web một công việc nên lưu ý rằng thuật toán phải chắc chắn rằng các trang web được lựa chọn tùy thuộc vào tầm quan trọng của họ. Tầm quan trọng của một trang web nằm trong phổ biến của nó trong điều khoản của liên kết hoặc truy cập, hoặc thậm chí trong URL của.Các loại thuật toánTăng dần con đường thu thập dữ liệu Chúng tôi dự định thu thập thông tin để tải về tài nguyên càng nhiều càng tốt từ một trang Web cụ thể. Bằng cách đó một trình thu thập sẽ lên đến mọi con đường trong mỗi URL mà nó dự định để thu thập dữ liệu. Ví dụ: khi cho một hạt giống URL của http://foo.org/a/b/page.html, nó sẽ cố gắng thu thập dữ liệu/a/b /, / a /, và /. Lợi thế với tăng dần con đường thu thập thông tin là họ rất hiệu quả trong việc tìm kiếm các nguồn tài nguyên bị cô lập, hoặc các nguồn tài nguyên mà không có liên kết trong nước nào đã được tìm thấy trong thu thập dữ liệu thường xuyên.Tập trung thu thập dữ liệu Tầm quan trọng của một trang cho một trình thu thập cũng có thể

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Thực hiện một hiệu quả Web Crawler
Giới thiệu

Web thu thập (cũng được biết đến như một con nhện Web hoặc robot Web) là một chương trình hay kịch bản tự động mà duyệt World Wide Web một cách có phương pháp và tự động.

Quá trình này được gọi là Web bò hoặc rẽ. Nhiều trang web hợp pháp, trong công cụ tìm kiếm cụ thể, sử dụng bò loang như một phương tiện cung cấp dữ liệu up-to-date. Trình thu thập web chủ yếu được sử dụng để tạo ra một bản sao của tất cả các trang web truy cập để xử lý bởi một công cụ tìm kiếm, mà sẽ chỉ mục các trang tải về để cung cấp cho các tìm kiếm nhanh chóng. Crawlers cũng có thể được sử dụng để tự động hóa các tác vụ bảo trì trên một trang web, chẳng hạn như kiểm tra các liên kết hoặc xác nhận mã HTML. Ngoài ra, trình thu thập có thể được sử dụng để thu thập các loại thông tin cụ thể từ các trang web, chẳng hạn như địa chỉ thu hoạch e-mail (thường là thư rác).

Một trang Web thu thập là một loại bot, hoặc đại lý phần mềm. Nói chung, nó bắt đầu với một danh sách các URL đến thăm, gọi là những hạt giống. . Khi lần xích các URL, nó xác định tất cả các siêu liên kết trong trang và thêm chúng vào danh sách các URL đến thăm, gọi là biên giới bò
? Tại sao chúng ta cần một trình thu thập web

Sau đây là một số lý do để sử dụng một trình thu thập web:

Để duy trì các trang gương cho các trang web phổ biến.
để kiểm tra các trang web và các liên kết cho các cú pháp và cấu trúc hợp lệ.
để theo dõi các trang web để xem khi cấu trúc, nội dung của họ thay đổi.
để tìm kiếm các hành vi xâm phạm quyền tác giả.
để xây dựng một mục đích đặc biệt index.for dụ, một mà có một số hiểu biết về các nội dung được lưu trữ trong các tập tin đa phương tiện trên Web.

Làm thế nào để một tác phẩm web crawler?

một điển hình bắt đầu web crawler bằng cách phân tích một trang web được chỉ định: ghi nhận bất kỳ liên kết siêu văn bản trên trang đó trỏ đến các trang web khác. Crawler sau đó phân tích những trang cho các liên kết mới, và như vậy, đệ quy. Một bánh xích là một phần mềm hoặc kịch bản hoặc chương trình tự động mà cư trú trên một máy duy nhất. Crawler chỉ gửi yêu cầu HTTP cho các tài liệu cho các máy khác trên Internet, chỉ cần là một trình duyệt web nào khi người dùng nhấp chuột vào liên kết. Tất cả các trình thu thập thực sự là để tự động hóa các quá trình liên kết sau đây.

Đây là khái niệm cơ bản đằng sau việc thực hiện thu thập web, nhưng thực hiện khái niệm này không chỉ đơn thuần là một loạt các chương trình. Phần tiếp theo mô tả những khó khăn liên quan đến việc thực hiện một web crawler hiệu quả.
Những khó khăn trong việc thực hiện hiệu quả web crawler

Có hai đặc tính quan trọng của Web mà tạo ra một kịch bản trong đó Web bò là rất khó khăn:

khối lượng lớn của các trang web.
Tỷ lệ thay đổi trên các trang web.

một khối lượng lớn các trang web có nghĩa là web crawler chỉ có thể tải về một phần nhỏ của các trang web và do đó nó là rất cần thiết mà web crawler cần đủ thông minh để ưu tiên download.

một vấn đề khác với today.s thế giới năng động là web trang về việc thay đổi internet rất thường xuyên, kết quả là, vào thời điểm thu thập được tải trang cuối cùng từ một trang web, trang này có thể thay đổi hoặc một trang mới đã được đặt / cập nhật cho trang web.
các giải pháp - chiến lược phải

những khó khăn trong thực hiện hiệu quả web crawler nêu rõ rằng băng thông để tiến hành crawl không phải là vô hạn cũng không miễn phí. Vì vậy, nó trở nên cần thiết để thu thập dữ liệu web không chỉ là một cách mở rộng, nhưng hiệu quả, nếu một số lượng hợp lý chất lượng hoặc tần suất của các trang web được duy trì. Điều này xảy ra sau đó một trình thu thập phải cẩn thận lựa chọn tại mỗi bước mà các trang web để truy cập tiếp theo.

Như vậy người thực hiện của một trình thu thập web phải xác định hành vi của nó.

Xác định hành vi của một trình thu thập web là kết quả của một sự kết hợp của chiến lược đề cập dưới đây:

Lựa chọn tốt hơn thuật toán để quyết định trang để tải về.
vạch ra chiến lược làm thế nào để lại đến thăm các trang web để kiểm tra cập nhật.
vạch ra chiến lược như thế nào để tránh quá tải các trang web.

Lựa chọn các thuật toán phải

với kích thước hiện tại của trang web, nó là điều cần thiết mà các chương trình thu thập thông nên thu thập thông trên phần nhỏ của trang web. Ngay cả công cụ tìm kiếm lớn trên thế giới năng động today.s bóc tách phần nhỏ của các trang web từ web. Nhưng, một trình thu thập nên quan sát các phần của trang bò phải là các trang có liên quan nhất, và các trang không chỉ là ngẫu nhiên.

Trong khi lựa chọn các thuật toán tìm kiếm các trình thu thập web một người thực hiện nên lưu ý rằng thuật toán phải đảm bảo rằng các trang web được chọn phụ thuộc khi tầm quan trọng của họ. Tầm quan trọng của một trang web nằm trong phổ biến của nó trong điều kiện của các liên kết hoặc thăm viếng, hoặc thậm chí URL của nó.
Thuật toán loại

Path-tăng dần bò

Chúng tôi dự định trình thu thập để tải về càng nhiều nguồn càng tốt từ một trang web cụ thể. Bằng cách đó một trình thu thập sẽ vươn tới mọi con đường trong mỗi URL mà nó dự định để thu thập thông. Ví dụ, khi đưa ra một URL giống http://foo.org/a/b/page.html, nó sẽ cố gắng để thu thập thông / a / b /, / a /, và /.

Lợi thế với Path-tăng dần xích là họ rất có hiệu quả trong việc tìm kiếm các nguồn tài nguyên bị cô lập, hoặc tài nguyên mà không có liên kết trong nước sẽ được tìm thấy ở bò thường xuyên.

Tập trung bò

Tầm quan trọng của một trang trong một trình thu thập có thể cũng

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.