9.10 Extraction Based on Multiple P

9.10 Extraction Based on Multiple Pages
We now discuss the second extraction problem described in Sect. 9.4.1. Given multiple pages with the same encoding template, the system finds patterns from them to be used to extract data from other similar pages. The collection of input pages can be a set of list pages or detail pages. Below, we first see how the techniques described so far can be applied in this setting, and then describe a technique specifically designed for this setting.
9.10.1 Using Techniques in Previous Sections
We discuss extraction of list pages and detail pages separately.

Given a Set of List Pages
Since the techniques described in previous sections are for a single list page, they can obviously be applied to multiple list pages. The pattern discovered from a single page can be used to extract data from the rest of the pages. Multiple list pages may also help improve the extraction. For example, patterns from all input pages may be found separately and merged to produce a single refined pattern. This can deal with the problem that a single page may not contain the complete information.

Given a Set of Detail Pages
In some applications, one needs to extract data from detail pages as they contain more information. For example, in a list page, the information on each product is usually quite brief, e.g., containing only the name, image, and price. However, if an application also needs the product description and customer reviews, one has to extract them from detail pages.
For extraction from detail pages, we can treat each page as a data record and apply the algorithms described in Sect. 9.8 and/or Sect. 9.9. For instance, to apply the NET algorithm, we can simply construct a rooted tree as input to NET as follows: (1) create an artificial root node, and (2) make the DOM tree of each page as a child sub-tree of the artificial root.
9.10.2 RoadRunner Algorithm

We now describe the RoadRunner algorithm [11], which is designed specifically for problem 2. Given a set of pages, each containing one or more data records (i.e., the pages can be list pages or detail pages), the algorithm compares the pages to find similarities and differences, and in the process generating a union-free regular expression (i.e., a regular expression without disjunctions) extractor/wrapper. The approach works as follows:
• To start, it takes a random page as the regular expression wrapper W.
• The wrapper W is then refined by matching it sequentially with the HTML code of each remaining page pi. It generalizes W by solving mismatches between the wrapper W and the page pi. A mismatch occurs when some token in pi does not match the grammar of the wrapper.
There are two types of mismatches:
1. Text string mismatches: They indicate data fields or items.
2. Tag mismatches: They indicate
• optional items, or
• iterators (a list of repeated patterns):
In this case, a mismatch occurs at the beginning of a repeated pattern and the end of a list. The system finds the last token of the mismatch position and identifies some candidate repeated patterns from the wrapper and the page pi by searching forward. It then compares the candidates with the upward portion of the page pi to confirm.
The algorithm is best explained with an example, which is given in Fig.9.43. In this figure, page 1 on the left (in HTML code) is the initial wrapper. Page 2 on the right is a new page to be matched with page 1.
Let us look at some matches and mismatches. Lines 13 of both pages are the same and thus match. Lines 4 of both pages are text strings and are different. They are thus data items to be extracted. We go down further. Lines 6 of the pages do not match. Line 6 of page 1 matches line 7 of page 2. Thus, is likely to be optional. Line 11 of page 1 and line 12 of page 2 give another mismatch. Since they are text strings, they are thus data items to be extracted. Line 17 of page 1 and line 18 of page 2 are also data items. Another mismatch occurs at line 19 of page 1 and line 20 of page 2. Further analysis will find that we have a list here. The final refined regular expression wrapper is given at the bottom of Fig. 9.43.

Given a Set of List Pages
Since the techniques described in previous sections are for a single list page, they can obviously be applied to multiple list pages. The pattern discovered from a single page can be used to extract data from the rest of the pages. Multiple list pages may also help improve the extraction. For example, patterns from all input pages may be found separately and merged to produce a single refined pattern. This can deal with the problem that a single page may not contain the complete information.

Given a Set of Detail Pages
In some applications, one needs to extract data from detail pages as they contain more information. For example, in a list page, the information on each product is usually quite brief, e.g., containing only the name, image, and price. However, if an application also needs the product description and customer reviews, one has to extract them from detail pages.
For extraction from detail pages, we can treat each page as a data record and apply the algorithms described in Sect. 9.8 and/or Sect. 9.9. For instance, to apply the NET algorithm, we can simply construct a rooted tree as input to NET as follows: (1) create an artificial root node, and (2) make the DOM tree of each page as a child sub-tree of the artificial root.
9.10.2 RoadRunner Algorithm

We now describe the RoadRunner algorithm [11], which is designed specifically for problem 2. Given a set of pages, each containing one or more data records (i.e., the pages can be list pages or detail pages), the algorithm compares the pages to find similarities and differences, and in the process generating a union-free regular expression (i.e., a regular expression without disjunctions) extractor/wrapper. The approach works as follows:
• To start, it takes a random page as the regular expression wrapper W.
• The wrapper W is then refined by matching it sequentially with the HTML code of each remaining page pi. It generalizes W by solving mismatches between the wrapper W and the page pi. A mismatch occurs when some token in pi does not match the grammar of the wrapper.
There are two types of mismatches:
1. Text string mismatches: They indicate data fields or items.
2. Tag mismatches: They indicate
• optional items, or
• iterators (a list of repeated patterns):
In this case, a mismatch occurs at the beginning of a repeated pattern and the end of a list. The system finds the last token of the mismatch position and identifies some candidate repeated patterns from the wrapper and the page pi by searching forward. It then compares the candidates with the upward portion of the page pi to confirm.
The algorithm is best explained with an example, which is given in Fig.9.43. In this figure, page 1 on the left (in HTML code) is the initial wrapper. Page 2 on the right is a new page to be matched with page 1.
Let us look at some matches and mismatches. Lines 13 of both pages are the same and thus match. Lines 4 of both pages are text strings and are different. They are thus data items to be extracted. We go down further. Lines 6 of the pages do not match. Line 6 of page 1 matches line 7 of page 2. Thus,  is likely to be optional. Line 11 of page 1 and line 12 of page 2 give another mismatch. Since they are text strings, they are thus data items to be extracted. Line 17 of page 1 and line 18 of page 2 are also data items. Another mismatch occurs at line 19 of page 1 and line 20 of page 2. Further analysis will find that we have a list here. The final refined regular expression wrapper is given at the bottom of Fig. 9.43.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

9,10 khai thác dựa trên nhiều trangBây giờ chúng tôi thảo luận về các vấn đề khai thác lần thứ hai được mô tả trong Sect. 9.4.1. Được nhiều trang với mẫu mã hóa tương tự, Hệ thống tìm thấy các mô hình từ đó được sử dụng để trích xuất dữ liệu từ các trang tương tự khác. Bộ sưu tập của trang đầu vào có thể là một tập hợp các danh sách trang hoặc các trang chi tiết. Dưới đây, chúng tôi lần đầu tiên thấy làm thế nào kỹ thuật được mô tả cho đến nay có thể được áp dụng trong cài đặt này, và sau đó mô tả một kỹ thuật thiết kế đặc biệt cho các cài đặt này.9.10.1 sử dụng kỹ thuật ở phần trướcChúng tôi đã thảo luận khai thác các danh sách trang web và các chi tiết trang một cách riêng biệt.Đưa ra một tập hợp các danh sách trangKể từ khi các kỹ thuật được mô tả trong phần trước cho một danh sách duy nhất trang, họ rõ ràng là có thể được áp dụng cho nhiều danh sách trang. Các mô hình phát hiện ra từ một trang duy nhất có thể được sử dụng để trích xuất dữ liệu từ phần còn lại của các trang. Nhiều danh sách trang cũng có thể giúp cải thiện việc khai thác. Ví dụ, các mô hình từ đầu vào tất cả các trang có thể được tìm thấy một cách riêng biệt và được sáp nhập để tạo ra một mô hình tinh tế duy nhất. Điều này có thể đối phó với các vấn đề một trang duy nhất có thể chứa thông tin đầy đủ.Đưa ra một tập hợp các chi tiết trangTrong một số ứng dụng cần phải trích xuất dữ liệu từ các chi tiết trang vì chúng chứa nhiều thông tin. Ví dụ, trong trang danh sách, các thông tin trên mỗi sản phẩm là thường khá ngắn, ví dụ, có chứa chỉ các tên, hình ảnh và giá. Tuy nhiên, nếu một ứng dụng cũng cần đánh giá về khách hàng và mô tả sản phẩm, người ta đã trích xuất chúng từ các trang chi tiết.Để khai thác từ các trang chi tiết, chúng ta có thể coi mỗi trang là một bản ghi dữ liệu và áp dụng các thuật toán được mô tả trong Sect. 9.8 và/hoặc Sect. 9.9. Ví dụ, để áp dụng các thuật toán NET, chúng tôi có thể chỉ đơn giản là xây dựng một cây bắt nguồn từ như đầu vào mạng như sau: (1) tạo ra một nút gốc nhân tạo, và (2) cây DOM của mỗi trang là một đứa trẻ con cây gốc nhân tạo.9.10.2 thuật toán roadRunnerBây giờ, chúng tôi mô tả các thuật toán RoadRunner [11], được thiết kế đặc biệt cho các vấn đề 2. Cho một tập hợp các trang, từng có chứa một hoặc nhiều dữ liệu hồ sơ (ví dụ, các trang web có thể là danh sách các trang hoặc chi tiết trang), các thuật toán so sánh các trang web để tìm thấy điểm tương đồng và khác biệt, và trong quá trình tạo ra một liên minh miễn phí biểu thức (tức là, một biểu hiện thường xuyên mà không có disjunctions) extractor/wrapper. Phương pháp tiếp cận công trình như sau:• Để bắt đầu, phải mất một trang ngẫu nhiên như cụm từ thông dụng wrapper W.• Các wrapper W sau đó được tinh chế bằng cách kết hợp nó tuần tự với mã HTML của mỗi pi trang còn lại. Nó generalizes W bằng cách giải quyết mismatches giữa các wrapper W và trang pi. Một không phù hợp xảy ra khi một số mã thông báo ở pi không phù hợp với ngữ pháp của các wrapper.Hiện có hai loại mismatches:1. văn bản chuỗi mismatches: họ cho thấy trường dữ liệu hoặc các mục.2. thẻ mismatches: họ chỉ ra• tùy chọn mục, hoặc• các vòng lặp (danh sách các mẫu lặp đi lặp lại):Trong trường hợp này, một không phù hợp xảy ra sự khởi đầu của một khuôn mẫu lặp đi lặp lại và kết thúc của một danh sách. Hệ thống tìm thấy mã thông báo cuối cùng của vị trí mismatch và xác định một số ứng cử viên lặp đi lặp lại các mô hình từ các wrapper và pi trang bằng cách tìm kiếm về phía trước. Sau đó so sánh các ứng cử viên với phần trang pi, trở lên để xác nhận.Các thuật toán tốt nhất là giải thích với một ví dụ, được đưa ra trong Fig.9.43. Trong hình này, trang 1 trên bên trái (trong mã HTML) là các wrapper ban đầu. Trang 2 trên bên phải là một trang mới để phù hợp với trang 1.Chúng ta hãy nhìn vào một số trận đấu và mismatches. Dòng 13 của cả hai trang này đều giống nhau và do đó phù hợp. Dòng 4 của cả hai trang này là các chuỗi ký tự và là khác nhau. Họ là như vậy, các mục dữ liệu cần được trích xuất. Chúng tôi đi xa hơn. Dòng 6 các trang không phù hợp. Dòng 6 Trang 1 trận dòng 7 trang 2. Vì vậy, có khả năng là tùy chọn. Dòng 11 trang 1 và trang 2 dòng 12 cung cấp cho một mismatch. Vì chúng là các chuỗi ký tự, chúng là như vậy, các mục dữ liệu cần được trích xuất. Dòng 17 trong số trang 1 và dòng 18 trang 2 cũng là bản ghi dữ liệu. Mismatch khác xảy ra tại đường 19 trang 1 và dòng 20 trang 2. Tiếp tục phân tích sẽ thấy rằng chúng tôi có một danh sách ở đây. Wrapper cuối cùng biểu hiện tinh thường xuyên được đưa ra ở dưới cùng của hình 9.43.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

9.10 Extraction Dựa trên nhiều trang
Bây giờ chúng ta thảo luận về vấn đề khai thác thứ hai được mô tả trong phái. 9.4.1. Với nhiều trang với các mẫu mã cùng, hệ thống tìm các mẫu từ họ sẽ được sử dụng để trích xuất dữ liệu từ các trang khác tương tự. Các bộ sưu tập của các trang đầu vào có thể là một tập hợp các trang danh sách hoặc các trang chi tiết. Dưới đây, đầu tiên chúng ta thấy các kỹ thuật được mô tả cho đến nay có thể được áp dụng trong môi trường này, và sau đó mô tả một kỹ thuật thiết kế đặc biệt cho thiết lập này.
9.10.1 Sử dụng kỹ thuật trong các phần trước
Chúng tôi thảo luận về khai thác các trang danh mục và trang chi tiết riêng biệt.

Với một thiết lập của trang Danh sách
từ các kỹ thuật được mô tả trong các phần trước là cho một trang danh sách duy nhất, họ có thể rõ ràng được áp dụng cho nhiều trang danh sách. Các mô hình phát hiện từ một trang duy nhất có thể được sử dụng để trích xuất dữ liệu từ phần còn lại của trang. Nhiều trang danh sách cũng có thể giúp cải thiện việc khai thác. Ví dụ, mô hình từ tất cả các trang đầu vào có thể được tìm thấy một cách riêng biệt và sáp nhập để sản xuất một mẫu tinh duy nhất. Điều này có thể đối phó với các vấn đề mà một trang duy nhất có thể không có thông tin đầy đủ.

Cho một Set các chi tiết trang
Trong một số ứng dụng, cần trích xuất dữ liệu từ các trang chi tiết vì chúng chứa nhiều thông tin. Ví dụ, trong một trang danh sách, thông tin trên mỗi sản phẩm thường khá ngắn gọn, ví dụ, chỉ chứa tên, hình ảnh, và giá cả. Tuy nhiên, nếu một ứng dụng cũng cần mô tả sản phẩm và khách hàng đánh giá, người ta phải trích xuất chúng từ các trang chi tiết.
Đối với khai thác từ các trang chi tiết, chúng ta có thể đối xử với mỗi trang như một bản ghi dữ liệu và áp dụng các thuật toán được mô tả trong phái. 9.8 và / hoặc phái. 9.9. Ví dụ, để áp dụng các thuật toán NET, chúng ta có thể chỉ đơn giản là xây dựng một cây bén rễ đầu vào NET như sau: (1) tạo ra một nút gốc nhân tạo, và (2) làm cho cây DOM của mỗi trang như một đứa trẻ tiểu cây gốc nhân tạo.
9.10.2 RoadRunner Algorithm

Bây giờ chúng ta mô tả các thuật toán RoadRunner [11], được thiết kế đặc biệt cho vấn đề 2. cho một tập các trang, mỗi trang có chứa một hoặc nhiều bản ghi dữ liệu (ví dụ, các trang có thể là các trang danh sách hoặc trang xem chi tiết), thuật toán so sánh các trang để tìm thấy điểm tương đồng và khác biệt, và trong quá trình tạo ra một biểu công đoàn phí thường xuyên (ví dụ, một biểu hiện thường xuyên mà không disjunctions) vắt / wrapper. Phương pháp làm việc như sau:
• Để bắt đầu, phải mất một trang ngẫu nhiên như bao bọc biểu thức chính quy W.
• Các wrapper W sau đó được tinh chế bằng cách kết hợp nó tuần tự với mã HTML của mỗi trang pi còn lại. Nó quát W bằng cách giải quyết sai lệch giữa W wrapper và pi trang. Một không phù hợp xảy ra khi một số mã thông báo trong pi không phù hợp với ngữ pháp của các wrapper.
Có hai loại sai lệch:
1. Tiêu chuỗi bất xứng: Họ chỉ ra các trường dữ liệu hoặc các mặt hàng.
2. Tag sai lệch: Họ chỉ ra
• Các hạng mục tùy chọn, hoặc
• lặp (một danh sách các mẫu lặp đi lặp lại):
Trong trường hợp này, không phù hợp xảy ra vào lúc bắt đầu của một mô hình lặp đi lặp lại và kết thúc của một danh sách. Hệ thống phát hiện được dấu hiệu cuối cùng của vị trí không phù hợp và xác định một số ứng cử viên lặp đi lặp lại mô hình từ wrapper và pi trang bằng cách tìm kiếm về phía trước. Sau đó so sánh các ứng viên với phần đi lên của pi trang để xác nhận.
Thuật toán là giải thích tốt nhất với một ví dụ, được đưa ra trong Fig.9.43. Trong hình này, trang 1 bên trái (trong HTML code) là wrapper ban đầu. Trang 2 trên bên phải là một trang mới để được xuất hiện với trang 1.
Chúng ta hãy xem xét một số trận đấu và bất xứng. Dòng 13 của cả các trang đều giống nhau và vì thế trận đấu. Dòng 4 của cả hai trang là chuỗi văn bản và là khác nhau. Họ là như vậy, các mục dữ liệu được trích xuất. Chúng tôi đi xuống hơn nữa. Dòng 6 của các trang không phù hợp. Dòng 6 của trang 1 trận đấu xếp hàng 7 trang 2. Như vậy, có khả năng là tùy chọn. Dòng 11 của trang 1 và dòng 12 trang 2 cho phù hợp khác. Vì họ là những chuỗi văn bản, họ là như vậy, các mục dữ liệu được trích xuất. Line 17 của trang 1 và dòng 18 trang 2 cũng là mục dữ liệu. Không phù hợp khác xảy ra tại dòng 19 của trang 1 và dòng 20 trang 2. Phân tích sâu hơn sẽ thấy rằng chúng tôi có một danh sách ở đây. Các thức tinh wrapper biểu hiện thường xuyên được đưa ra ở dưới đáy của hình. 9.43.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.