Chúng tôi giả định rằng mỗi trang web được đại diện bởi một số nguyên duy nhất; Các đề án specific được sử dụng để gán các số nguyên được mô tả dưới đây. Chúng tôi xây dựng một bảng kề tương tự như một chỉ số bị lộn ngược; đô thị này có một hàng cho mỗi trang web, với dòng lệnh của các số nguyên tương ứng. Hàng cho bất kỳ trang p chứa một danh sách được sắp xếp của số nguyên, mỗi tương ứng với một trang web đó liên kết với p. Bảng này cho phép chúng tôi đáp ứng các truy vấn của các hình thức những trang liên kết với p? Tương tự như chúng tôi xây dựng một bảng mục mà là các trang được liên kết đến bởi p. Đại diện bảng này cắt giảm không gian thực hiện bởi đại diện ngây thơ (trong đó chúng tôi rõ ràng đại diện cho mỗi liên kết của nó điểm cuối hai, eacha 32-bit số nguyên) 50%. Chúng tôi mô tả dưới đây sẽ tập trung vào bảng với các liên kết từ mỗi trang; nó nên được rõ ràng rằng các kỹ thuật áp dụng chỉ là tốt cho thetableoflinkstoeach trang. Tofurtherreduce thestorage forthetable, chúng ta khai thác một số ý tưởng: Sự tương tự giữa danh sách: nhiều hàng của bảng có mục có nhiều điểm chung. Vì vậy, nếu chúng tôi rõ ràng đại diện cho một hàng nguyên mẫu cho một số sim¬ilar hàng, phần còn lại có thể được ngắn gọn thể hiện trong điều khoản của dòng proto¬typical. Địa phương: Nhiều liên kết từ một trang đi đến "gần đó" trang - trang trên cùng một máy chủ, ví dụ. Điều này cho thấy rằng mã hóa điểm đến của một liên kết, chúng tôi có thể thường sử dụng các số nguyên nhỏ và do đó tiết kiệm không gian. Chúng tôi sử dụng khoảng cách mã hóa trong danh sách được sắp xếp: khá hơn lưu trữ đích của mỗi liên kết, chúng tôi lưu trữ các bù đắp từ các mục nhập trước đó trong hàng.Chúng tôi bây giờ phát triển mỗi người trong số các kỹ thuật này.Trong một đặt hàng lexicographic của tất cả các URL, chúng tôi xử lý mỗi URL như một chuỗi chữ và số và sắp xếp các dây. Con số 20.5 cho thấy một phân đoạn của bộ này được sắp xếp. Cho một loại lexicographic đúng của trang web, một phần tên miền của URL nên được đảo ngược, do đó www.stanford.edu trở thành edu.stanford.www, nhưng điều này là không cần thiết ở đây bởi vì chúng tôi là chủ yếu là có liên quan với các liên kết địa phương đến một máy chủ duy nhất.Mỗi URL, chúng tôi chỉ định vị trí của nó trong này đặt hàng như là số nguyên nhận dạng duy nhất. Con số 20.6 cho thấy một ví dụ về các một số và bảng kết quả. Theo thứ tự này ví dụ, www.stanford.edu/biology isas--ký số nguyên 2 vì nó là thứ hai trong chuỗi.Chúng tôi tiếp theo khai thác một tài sản mà bắt nguồn từ cách hầu hết các trang web được cấu trúc để có được tương tự và địa phương. Hầu hết các trang web có một mẫu với một tập hợp các liên kết từ mỗi trang trong trang web đến một tập hợp cố định các trang trên trang web (chẳng hạn như bản quyền của nó thông báo, điều khoản sử dụng, và như vậy). Trong trường hợp này, các hàng tương ứng với trang trong một trang web sẽ có nhiều bảng mục chung. Hơn nữa, theo các đặt hàng lexicographic của URL, nó là rất có khả năng rằng các trang từ một trang web xuất hiện như là lục địa hàng trong bảng.Chúng tôi áp dụng các chiến lược sau: chúng tôi đi bộ xuống bảng, mã hóa mỗi dòng của bảng trong điều khoản của các hàng trước bảy. Trong ví dụ của hình 20.6, chúng tôi có thể mã hóa hàng thứ tư là "giống như dòng tại đối tượng dời hình 2 (mean¬ing, hai hàng trước đó trong bảng), với 9 thay thế bởi 8." Điều này đòi hỏi đặc điểm kỹ thuật của các bù đắp, integer(s) giảm (trong trường hợp này 9) và các tại - teger(s) được thêm vào (trong trường hợp này 8). Việc sử dụng chỉ bảy trước hàng có hai ưu điểm: (i) đối tượng dời hình có thể được thể hiện với chỉ 3 bit; lựa chọn này tối ưu hóa empirically (lý do cho bảy và tám không trước hàng là chủ thể của tập thể dục 20.4) và (ii) cố định tối đa bù đắp một giá trị nhỏ như bảy tránh phải thực hiện một tìm kiếm đắt tiền trong số nhiều ứng cử viên nguyên mẫu trong điều kiện để nhận hàng hiện tại.Nếu không có bảy hàng trước là một mẫu thử nghiệm tốt cho express¬ing dòng hiện tại? Điều này sẽ xảy ra, ví dụ, mỗi be¬tween ranh giới các trang web khác nhau như chúng tôi đi bộ xuống các hàng của bảng. Trong trường hợp này, chúng tôi chỉ đơn giản là nhận dòng là bắt đầu từ tập rỗng và "thêm vào" mỗi số nguyên trong hàng đó. Bằng cách sử dụng khoảng cách mã hóa để lưu trữ các khoảng trống (chứ không phải là các số nguyên thực tế) trong mỗi hàng, và mã hóa các khoảng cách chặt chẽ dựa trên việc phân phối các giá trị của họ, chúng tôi có được thêm space giảm. Trong ex¬periments đề cập trong phần 20.5, một loạt các kỹ thuật được nêu ở đây dường như sử dụng 3 bit cho mỗi liên kết, chỉ là trung bình - một sự giảm đáng kể từ 64 các yêu cầu trong đại diện ngây thơ.Mặc dù những ý tưởng cho chúng tôi một đại diện của đồ thị khá lớn web thoải mái phù hợp trong bộ nhớ, chúng tôi vẫn cần phải hỗ trợ kết nối truy vấn. Những gì được ghi trong Lấy từ đại diện này tập hợp các liên kết từ một trang? Trước tiên, chúng ta cần một tra cứu chỉ số từ (một băm của) URL của nó số hàng trong bảng. Tiếp theo, chúng ta cần để tái tạo lại các mục, mà có thể được mã hóa trong điều khoản của các mục trong hàng khác. Điều này đòi hỏi sau các offsets để tái tạo lại những khác hàng - một quá trình mà về nguyên tắc có thể dẫn thông qua nhiều cấp độ của mình. Trong thực tế, Tuy nhiên, điều này không xảy ra rất thường xuyên. Một heuristic cho việc kiểm soát điều này có thể được giới thiệu vào việc xây dựng bảng: khi kiểm tra các ngay trước Bảy hàng như là các ứng cử viên mà từ đó để mô hình hàng hiện tại, chúng tôi yêu cầu một ngưỡng tương tự be¬tween hàng hiện tại và nguyên mẫu ứng cử viên. Ngưỡng này phải được lựa chọn cẩn thận. Nếu ngưỡng được thiết lập quá cao, chúng tôi hiếm khi sử dụng những chiếc nguyên mẫu và nhận nhiều hàng afresh. Nếu ngưỡng là quá thấp, hầu hết hàng nhận được ex¬pressed trong điều khoản của chiếc nguyên mẫu, do đó lúc thời gian truy vấn việc tái thiết của một hàng dẫn đến nhiều cấp độ của mình thông qua trước nguyên mẫu.r tập thể dục 20.4 chúng tôi lưu ý rằng thể hiện liên tiếp trong điều khoản của một trong bảy pre¬ceding hàng cho phép chúng tôi sử dụng không quá ba bit để chỉ định các hàng trước, chúng tôi đang sử dụng kiểu nguyên mẫu. Tại sao bảy và không tám ngay trước hàng? (Gợi ý: xem xét các trường hợp khi không có bảy hàng trước là một mẫu thử nghiệm tốt.)Tập thể dục 20,5 chúng tôi ghi nhận rằng cho các đề án trong phần 20.4, giải mã các sự cố liên kết vào một URL có thể dẫn đến ở nhiều cấp độ của mình. Xây dựng một ví dụ trong đó số lượng mức độ về mình phát triển tuyến tính với số lượng URL. Tài liệu tham khảo và đọc thêmCác trình thu thập web đầu tiên dường như là của Matthew Gray Wanderer, viết trong mùa xuân năm 1993. Thu thập Mercator là do Najork và Heydon (Najork và Heydon năm 2001, 2002); điều trị trong chương này theo công việc của họ. Các mô tả đầu cổ điển của web thu thập dữ liệu bao gồm Burner (1997), Brin và trang (1998), Cho et al. (1998), và những người sáng tạo của sys¬tem Webbase tại Stanford (Hirai et al. năm 2000). Cho và Garcia-Molina (2002) cung cấp cho một nghiên cứu phân loại và so sánh của các chế độ khác nhau của giao tiếp bettween các nút của một trình thu thập phân phối. Stan¬dard robot loại trừ giao thức được mô tả tại www.robotstxt.org/wc/exclusion.html. Boldi et al. (2002) và Shkapenyuk và Suel (2002) cung cấp các chi tiết hơn tại của việc thực hiện trình thu thập web phân phối quy mô lớn.Chúng tôi thảo luận về độ phân giải DNS (phần 20.2.2) sử dụng công ước hiện tại cho các địa chỉ Internet, được gọi là IPv4 (đối với các giao thức Internet Phiên bản 4); mỗi địa chỉ IP là một chuỗi các bốn byte. Trong tương lai, công ước về địa chỉ (gọi chung là không gian địa chỉ internet) là có khả năng sử dụng một tiêu chuẩn mới được biết đến như IPv6 (www.ipv6.org/).Tomasic và Garcia-Molina (1993) và Jeong và Omiecinski (1995) là quan trọng giấy tờ đầu đánh giá thuật ngữ phân vùng so với tài liệu phân vùng cho chỉ số phân phối. Tài liệu phân vùng được tìm thấy sẽ được cấp trên, ít khi việc phân phối các điều khoản sai lệch, vì nó thường là trong thực tế. Kết quả này nói chung đã được xác nhận trong công việc gần đây (MacFarlane et al. năm 2000). Nhưng kết quả phụ thuộc vào các chi tiết của hệ thống phân phối;ít nhất một chủ đề của công việc đã đạt đến kết luận ngược lại (Ribeiro - Neto và Barbosa 1998; Badue et al. năm 2001). Sornil (2001) lập luận cho một lược đồ phân vùng là một loài lai giữa nhiệm kỳ và tài liệu phân vùng. Barroso et al. (2003) Mô tả các phương pháp phân phối được sử dụng tại Google. Việc thực hiện đầu tiên của một máy chủ kết nối được miêu tả bởi Bharat et al. (1998). Chương trình thảo luận trong chương này, hiện nay cho là tốt nhất công bố chương trình (đạt được chỉ là 3 bit cho mỗi liên kết để mã hóa), được mô tả trong một loạt các giấy tờ bởi Boldi và Vigna (2004a, 2004b).
đang được dịch, vui lòng đợi..
