Thực hiện một hiệu quả Web Crawler
Giới thiệu
Web thu thập (cũng được biết đến như một con nhện Web hoặc robot Web) là một chương trình hay kịch bản tự động mà duyệt World Wide Web một cách có phương pháp và tự động.
Quá trình này được gọi là Web bò hoặc rẽ. Nhiều trang web hợp pháp, trong công cụ tìm kiếm cụ thể, sử dụng bò loang như một phương tiện cung cấp dữ liệu up-to-date. Trình thu thập web chủ yếu được sử dụng để tạo ra một bản sao của tất cả các trang web truy cập để xử lý bởi một công cụ tìm kiếm, mà sẽ chỉ mục các trang tải về để cung cấp cho các tìm kiếm nhanh chóng. Crawlers cũng có thể được sử dụng để tự động hóa các tác vụ bảo trì trên một trang web, chẳng hạn như kiểm tra các liên kết hoặc xác nhận mã HTML. Ngoài ra, trình thu thập có thể được sử dụng để thu thập các loại thông tin cụ thể từ các trang web, chẳng hạn như địa chỉ thu hoạch e-mail (thường là thư rác).
Một trang Web thu thập là một loại bot, hoặc đại lý phần mềm. Nói chung, nó bắt đầu với một danh sách các URL đến thăm, gọi là những hạt giống. . Khi lần xích các URL, nó xác định tất cả các siêu liên kết trong trang và thêm chúng vào danh sách các URL đến thăm, gọi là biên giới bò
? Tại sao chúng ta cần một trình thu thập web
Sau đây là một số lý do để sử dụng một trình thu thập web:
Để duy trì các trang gương cho các trang web phổ biến.
để kiểm tra các trang web và các liên kết cho các cú pháp và cấu trúc hợp lệ.
để theo dõi các trang web để xem khi cấu trúc, nội dung của họ thay đổi.
để tìm kiếm các hành vi xâm phạm quyền tác giả.
để xây dựng một mục đích đặc biệt index.for dụ, một mà có một số hiểu biết về các nội dung được lưu trữ trong các tập tin đa phương tiện trên Web.
Làm thế nào để một tác phẩm web crawler?
một điển hình bắt đầu web crawler bằng cách phân tích một trang web được chỉ định: ghi nhận bất kỳ liên kết siêu văn bản trên trang đó trỏ đến các trang web khác. Crawler sau đó phân tích những trang cho các liên kết mới, và như vậy, đệ quy. Một bánh xích là một phần mềm hoặc kịch bản hoặc chương trình tự động mà cư trú trên một máy duy nhất. Crawler chỉ gửi yêu cầu HTTP cho các tài liệu cho các máy khác trên Internet, chỉ cần là một trình duyệt web nào khi người dùng nhấp chuột vào liên kết. Tất cả các trình thu thập thực sự là để tự động hóa các quá trình liên kết sau đây.
Đây là khái niệm cơ bản đằng sau việc thực hiện thu thập web, nhưng thực hiện khái niệm này không chỉ đơn thuần là một loạt các chương trình. Phần tiếp theo mô tả những khó khăn liên quan đến việc thực hiện một web crawler hiệu quả.
Những khó khăn trong việc thực hiện hiệu quả web crawler
Có hai đặc tính quan trọng của Web mà tạo ra một kịch bản trong đó Web bò là rất khó khăn:
khối lượng lớn của các trang web.
Tỷ lệ thay đổi trên các trang web.
một khối lượng lớn các trang web có nghĩa là web crawler chỉ có thể tải về một phần nhỏ của các trang web và do đó nó là rất cần thiết mà web crawler cần đủ thông minh để ưu tiên download.
một vấn đề khác với today.s thế giới năng động là web trang về việc thay đổi internet rất thường xuyên, kết quả là, vào thời điểm thu thập được tải trang cuối cùng từ một trang web, trang này có thể thay đổi hoặc một trang mới đã được đặt / cập nhật cho trang web.
các giải pháp - chiến lược phải
những khó khăn trong thực hiện hiệu quả web crawler nêu rõ rằng băng thông để tiến hành crawl không phải là vô hạn cũng không miễn phí. Vì vậy, nó trở nên cần thiết để thu thập dữ liệu web không chỉ là một cách mở rộng, nhưng hiệu quả, nếu một số lượng hợp lý chất lượng hoặc tần suất của các trang web được duy trì. Điều này xảy ra sau đó một trình thu thập phải cẩn thận lựa chọn tại mỗi bước mà các trang web để truy cập tiếp theo.
Như vậy người thực hiện của một trình thu thập web phải xác định hành vi của nó.
Xác định hành vi của một trình thu thập web là kết quả của một sự kết hợp của chiến lược đề cập dưới đây:
Lựa chọn tốt hơn thuật toán để quyết định trang để tải về.
vạch ra chiến lược làm thế nào để lại đến thăm các trang web để kiểm tra cập nhật.
vạch ra chiến lược như thế nào để tránh quá tải các trang web.
Lựa chọn các thuật toán phải
với kích thước hiện tại của trang web, nó là điều cần thiết mà các chương trình thu thập thông nên thu thập thông trên phần nhỏ của trang web. Ngay cả công cụ tìm kiếm lớn trên thế giới năng động today.s bóc tách phần nhỏ của các trang web từ web. Nhưng, một trình thu thập nên quan sát các phần của trang bò phải là các trang có liên quan nhất, và các trang không chỉ là ngẫu nhiên.
Trong khi lựa chọn các thuật toán tìm kiếm các trình thu thập web một người thực hiện nên lưu ý rằng thuật toán phải đảm bảo rằng các trang web được chọn phụ thuộc khi tầm quan trọng của họ. Tầm quan trọng của một trang web nằm trong phổ biến của nó trong điều kiện của các liên kết hoặc thăm viếng, hoặc thậm chí URL của nó.
Thuật toán loại
Path-tăng dần bò
Chúng tôi dự định trình thu thập để tải về càng nhiều nguồn càng tốt từ một trang web cụ thể. Bằng cách đó một trình thu thập sẽ vươn tới mọi con đường trong mỗi URL mà nó dự định để thu thập thông. Ví dụ, khi đưa ra một URL giống http://foo.org/a/b/page.html, nó sẽ cố gắng để thu thập thông / a / b /, / a /, và /.
Lợi thế với Path-tăng dần xích là họ rất có hiệu quả trong việc tìm kiếm các nguồn tài nguyên bị cô lập, hoặc tài nguyên mà không có liên kết trong nước sẽ được tìm thấy ở bò thường xuyên.
Tập trung bò
Tầm quan trọng của một trang trong một trình thu thập có thể cũng
đang được dịch, vui lòng đợi..
