9,10 khai thác dựa trên nhiều trangBây giờ chúng tôi thảo luận về các vấn đề khai thác lần thứ hai được mô tả trong Sect. 9.4.1. Được nhiều trang với mẫu mã hóa tương tự, Hệ thống tìm thấy các mô hình từ đó được sử dụng để trích xuất dữ liệu từ các trang tương tự khác. Bộ sưu tập của trang đầu vào có thể là một tập hợp các danh sách trang hoặc các trang chi tiết. Dưới đây, chúng tôi lần đầu tiên thấy làm thế nào kỹ thuật được mô tả cho đến nay có thể được áp dụng trong cài đặt này, và sau đó mô tả một kỹ thuật thiết kế đặc biệt cho các cài đặt này.9.10.1 sử dụng kỹ thuật ở phần trướcChúng tôi đã thảo luận khai thác các danh sách trang web và các chi tiết trang một cách riêng biệt.Đưa ra một tập hợp các danh sách trangKể từ khi các kỹ thuật được mô tả trong phần trước cho một danh sách duy nhất trang, họ rõ ràng là có thể được áp dụng cho nhiều danh sách trang. Các mô hình phát hiện ra từ một trang duy nhất có thể được sử dụng để trích xuất dữ liệu từ phần còn lại của các trang. Nhiều danh sách trang cũng có thể giúp cải thiện việc khai thác. Ví dụ, các mô hình từ đầu vào tất cả các trang có thể được tìm thấy một cách riêng biệt và được sáp nhập để tạo ra một mô hình tinh tế duy nhất. Điều này có thể đối phó với các vấn đề một trang duy nhất có thể chứa thông tin đầy đủ.Đưa ra một tập hợp các chi tiết trangTrong một số ứng dụng cần phải trích xuất dữ liệu từ các chi tiết trang vì chúng chứa nhiều thông tin. Ví dụ, trong trang danh sách, các thông tin trên mỗi sản phẩm là thường khá ngắn, ví dụ, có chứa chỉ các tên, hình ảnh và giá. Tuy nhiên, nếu một ứng dụng cũng cần đánh giá về khách hàng và mô tả sản phẩm, người ta đã trích xuất chúng từ các trang chi tiết.Để khai thác từ các trang chi tiết, chúng ta có thể coi mỗi trang là một bản ghi dữ liệu và áp dụng các thuật toán được mô tả trong Sect. 9.8 và/hoặc Sect. 9.9. Ví dụ, để áp dụng các thuật toán NET, chúng tôi có thể chỉ đơn giản là xây dựng một cây bắt nguồn từ như đầu vào mạng như sau: (1) tạo ra một nút gốc nhân tạo, và (2) cây DOM của mỗi trang là một đứa trẻ con cây gốc nhân tạo.9.10.2 thuật toán roadRunnerBây giờ, chúng tôi mô tả các thuật toán RoadRunner [11], được thiết kế đặc biệt cho các vấn đề 2. Cho một tập hợp các trang, từng có chứa một hoặc nhiều dữ liệu hồ sơ (ví dụ, các trang web có thể là danh sách các trang hoặc chi tiết trang), các thuật toán so sánh các trang web để tìm thấy điểm tương đồng và khác biệt, và trong quá trình tạo ra một liên minh miễn phí biểu thức (tức là, một biểu hiện thường xuyên mà không có disjunctions) extractor/wrapper. Phương pháp tiếp cận công trình như sau:• Để bắt đầu, phải mất một trang ngẫu nhiên như cụm từ thông dụng wrapper W.• Các wrapper W sau đó được tinh chế bằng cách kết hợp nó tuần tự với mã HTML của mỗi pi trang còn lại. Nó generalizes W bằng cách giải quyết mismatches giữa các wrapper W và trang pi. Một không phù hợp xảy ra khi một số mã thông báo ở pi không phù hợp với ngữ pháp của các wrapper.Hiện có hai loại mismatches:1. văn bản chuỗi mismatches: họ cho thấy trường dữ liệu hoặc các mục.2. thẻ mismatches: họ chỉ ra• tùy chọn mục, hoặc• các vòng lặp (danh sách các mẫu lặp đi lặp lại):Trong trường hợp này, một không phù hợp xảy ra sự khởi đầu của một khuôn mẫu lặp đi lặp lại và kết thúc của một danh sách. Hệ thống tìm thấy mã thông báo cuối cùng của vị trí mismatch và xác định một số ứng cử viên lặp đi lặp lại các mô hình từ các wrapper và pi trang bằng cách tìm kiếm về phía trước. Sau đó so sánh các ứng cử viên với phần trang pi, trở lên để xác nhận.Các thuật toán tốt nhất là giải thích với một ví dụ, được đưa ra trong Fig.9.43. Trong hình này, trang 1 trên bên trái (trong mã HTML) là các wrapper ban đầu. Trang 2 trên bên phải là một trang mới để phù hợp với trang 1.Chúng ta hãy nhìn vào một số trận đấu và mismatches. Dòng 13 của cả hai trang này đều giống nhau và do đó phù hợp. Dòng 4 của cả hai trang này là các chuỗi ký tự và là khác nhau. Họ là như vậy, các mục dữ liệu cần được trích xuất. Chúng tôi đi xa hơn. Dòng 6 các trang không phù hợp. Dòng 6 Trang 1 trận dòng 7 trang 2. Vì vậy, có khả năng là tùy chọn. Dòng 11 trang 1 và trang 2 dòng 12 cung cấp cho một mismatch. Vì chúng là các chuỗi ký tự, chúng là như vậy, các mục dữ liệu cần được trích xuất. Dòng 17 trong số trang 1 và dòng 18 trang 2 cũng là bản ghi dữ liệu. Mismatch khác xảy ra tại đường 19 trang 1 và dòng 20 trang 2. Tiếp tục phân tích sẽ thấy rằng chúng tôi có một danh sách ở đây. Wrapper cuối cùng biểu hiện tinh thường xuyên được đưa ra ở dưới cùng của hình 9.43.
đang được dịch, vui lòng đợi..
![](//viimg.ilovetranslation.com/pic/loading_3.gif?v=b9814dd30c1d7c59_8619)