Làm thế nào để Re-chuyến thăm các trang web
. Các phương pháp tối ưu để thăm lại các trang web và duy trì độ tươi trung bình cao của trang web là để bỏ qua các trang web thay đổi quá thường xuyên
Các phương pháp tiếp cận có thể là:
• Re-thăm tất cả các trang trong bộ sưu tập với cùng tần số, bất kể mức giá của họ thay đổi.
• Re-thăm thường xuyên hơn các trang web thay đổi thường xuyên hơn.
(trong cả hai trường hợp, thứ tự bò lặp đi lặp lại của trang có thể được thực hiện hoặc ngẫu nhiên hoặc với một trật tự cố định.)
các lại tham quan các phương pháp xem xét ở đây coi tất cả các trang như đồng nhất về chất lượng ( "tất cả các trang trên Web có giá trị như nhau"), một cái gì đó không phải là một kịch bản thực tế.
làm thế nào để tránh quá tải các trang web
Crawlers có thể lấy dữ liệu nhanh hơn và sâu hơn hơn người tìm kiếm con người, do đó, họ có thể có một tác động làm tê liệt về hoạt động của một trang web. Không cần phải nói, nếu một trình thu thập duy nhất được thực hiện nhiều yêu cầu mỗi giây và / hoặc tải tập tin lớn, một máy chủ sẽ có một thời gian khó giữ với yêu cầu từ nhiều trình thu thập.
Việc sử dụng các trình thu thập web rất hữu ích cho một số nhiệm vụ, nhưng đi kèm với một giá cho cộng đồng nói chung. Các chi phí của việc sử dụng trình thu thập web bao gồm:
nguồn lực • Mạng, như trình thu thập yêu cầu băng thông đáng kể và hoạt động với một mức độ cao của xử lý song song trong suốt một thời gian dài.
• Server quá tải, đặc biệt là nếu tần số của các truy cập đến một máy chủ đưa ra là quá cao.
• crawlers kém bằng văn bản, có thể sụp đổ các máy chủ hoặc bộ định tuyến, hoặc có các trang download họ không thể xử lý.
• trình thu thập cá nhân rằng, nếu được triển khai bởi quá nhiều người sử dụng, có thể phá hoại mạng và máy chủ Web.
Để giải quyết vấn đề này, chúng ta có thể sử dụng giao thức loại trừ robot, cũng như các giao thức robots.txt.
các robot tiêu chuẩn loại trừ hoặc giao thức robots.txt là một quy ước để ngăn chặn hợp tác nhện web và robot web khác truy cập vào tất cả hoặc một phần của một trang web. Chúng ta có thể chỉ định thư mục cấp cao nhất của trang web trong một tập tin gọi là robots.txt và điều này sẽ ngăn chặn các truy cập của thư mục đó để thu thập thông.
Giao thức này sử dụng so sánh chuỗi đơn giản để phù hợp với mô hình định nghĩa trong file robots.txt. Vì vậy, khi sử dụng tập tin robots.txt này, chúng ta cần phải chắc chắn rằng chúng tôi sử dụng ./ thức. nhân vật nối vào đường dẫn thư mục. Khác, các tập tin có tên bắt đầu bằng chuỗi con đó sẽ phù hợp hơn là thư mục.
Ví dụ về file robots.txt mà nói với tất cả các trình thu thập không nhập vào bốn thư mục của một trang web:
User-agent: *
Disallow: / cgi-bin /
Disallow: / images /
Disallow: / tmp /
Disallow: / / tin
kiến trúc Web crawler
. một bánh xích phải có một chiến lược bò tốt, như đã nói ở phần trước, nhưng nó cũng cần một kiến trúc tối ưu hóa cao
pseudo mã cho một trình thu thập web
Dưới đây là một giả tóm lại mã của thuật toán có thể được sử dụng để thực hiện một trình thu thập web:
. Yêu cầu người sử dụng để xác định các URL bắt đầu trên trang web và loại tập tin mà trình thu thập nên thu thập thông
. Thêm URL vào danh sách sản phẩm nào của URL để tìm kiếm
khi không có sản phẩm nào (danh sách URL để tìm kiếm)
{
hãy URL đầu tiên trong từ danh sách các URL
Đánh dấu URL này như đã tìm kiếm URL.
Nếu giao thức URL không phải là HTTP sau đó
phá vỡ;
trở lại trong khi
Nếu tập tin robots.txt tồn tại trên trang web sau đó
Nếu tập tin bao gồm .Disallow. tuyên bố sau đó
phá vỡ;
trở lại trong khi mở các URL Nếu URL được mở ra không phải là tập tin HTML sau đó phá vỡ; Quay trở lại trong khi làm lại các tập tin HTML Trong khi văn bản html có chứa một liên kết { Nếu tập tin robots.txt tồn tại trên URL / trang web sau đó Nếu tập tin bao gồm .Disallow. tuyên bố sau đó phá vỡ; trở lại trong khi Nếu URL được mở ra là file HTML sau đó Nếu URL không được đánh dấu là đã tìm kiếm sau đó Mark URL này như đã tìm kiếm URL. khác nếu loại tập tin được người dùng yêu cầu Thêm vào danh sách các file được tìm thấy. } } Kết luận xây dựng một trình thu thập web hiệu quả để giải quyết mục đích của bạn không phải là một nhiệm vụ khó khăn, nhưng việc lựa chọn chiến lược đúng và xây dựng một cấu trúc hiệu quả sẽ dẫn đến việc thực hiện rất thông minh ứng dụng web crawler. ________________________________________ viết bởi Shalin Shah, trưởng dự án tại eInfochips Ltd. Shalin có thể đạt được tại Shalinjshah@hotmail.com
đang được dịch, vui lòng đợi..
