9.12 DiscussionFinally, we discuss the main advantages and disadvantag dịch - 9.12 DiscussionFinally, we discuss the main advantages and disadvantag Việt làm thế nào để nói

9.12 DiscussionFinally, we discuss

9.12 Discussion

Finally, we discuss the main advantages and disadvantages of wrapper induction and automatic data extraction. The key advantage of wrapper induction is that it extracts only the data that the user is interested in. Due to manual labeling, there is no schema matching problem. However, data value or instance matching is still needed. The main disadvantages are that it is not scalable to a large number of sites due to significant manual efforts, and that maintenance is very costly if sites change frequently.
The main advantages of automatic extraction are that it is scalable to a huge number of sites, and that there is little maintenance cost. The main disadvantage is that it can extract a large amount of unwanted data because the system does not know what is interesting to the user. Also, in some applications, the extracted data from multiple sites need integration, i.e., their schemas as well as values need to be matched, which are difficult tasks. However, if the application domain is narrow, domain heuristics may be sufficient to filter out unwanted data and to perform the integration tasks.
In terms of extraction accuracy, it is reasonable to assume that wrapper induction is more accurate than automatic extraction, although there is no reported large scale study comparing the two approaches.

Bibliographic Notes

Web data extraction techniques can be classified into three main categories: (1) wrapper programming languages and visual platforms, (2) wrapper induction, and (3) automatic data extraction. The first approach provides some specialized pattern specification languages and visual platforms to help the user construct extraction programs. Systems that follow this approach include WICCAP [23], Wargo [29], Lixto [3], etc.
The second approach is wrapper induction, which uses supervised learning to learn data extraction rules from a set of manually labeled positive and negative examples. A theoretical work on wrapper learning based on the PAC learning framework was done by Kushmerick [20]. Example wrapper induction systems include WIEN [19], Softmealy [17], Stalker [28], WL2 [10], Thresher [15], IDE [38], [18], [43], etc. Most existing systems are based on inductive learning from a set of labeled examples. IDE [38] employs a simple instance-based learning technique, which performs active learning at the same time so that the user only needs to label a very small number of pages. Related ideas are also used in [7] and [15]. Most existing wrapper induction systems built wrappers based on similar pages from the same site. Zhu et al. [44, 45] reported a system that learns from labeled pages from multiple sites in a specific domain. The resulting wrapper can be used to extract data from other sites. This avoids the labor intensive work of building a wrapper for each site.
The third approach is automatic extraction. In [12], Embley et al. studied the automatic identification of data record boundaries given a list page. The technique uses a set of heuristic rules and domain ontologies. In [4], Buttler et al. proposed additional heuristics to perform the task without using domain ontologies. The MDR algorithm discussed in this chapter was proposed by Liu et al. [24]. It uses string edit distance in pattern finding (incidentally, Lloyd Allison has a great page on string edit distance). An algorithm based on the visual information was given by Zhao et al. [42] for extracting search engine results. Another visual based system is given in [31]. These systems, however, do not align or extract data items from data records. Chang et al. [8] reported a semi-automatic system called IEPAD to find extraction patterns from a list page to extract data items. The DeLa system by Wang et al. [34] works similarly. The DEPTA system by Zhai and Liu [40] works in a different way. It first segments data records, and then aligns and extracts data items in the data records using the partial tree alignment algorithm. Both DEPTA and IEPAD do not deal with nested data records, which are dealt with in NET [25] and DeLa [34]. Other related work includes [5, 26, 32, 36], which use the visual information, the domain knowledge or automatically found anchor trees.
The RoadRunner system, which needs multiple pages as input, was proposed by Crescenzi et al. [11]. Its theoretical foundation was given by Grumbach and Mecca [13]. Sects. 9.1 and 9.4 are influenced by this paper. The work of RoadRunner was improved by Arasu and Garcia-Molina in their EXALG system [1]. Both systems need multiple input pages with a common schema/template and assume that these pages are given. The pages can be either detail pages or list pages. The method proposed in [22] works in a similar setting. A tree-matching based method is given in [30].
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
9,12 thảo luậnCuối cùng, chúng tôi thảo luận về chính lợi thế và bất lợi của cảm ứng wrapper và khai thác dữ liệu tự động. Ưu điểm chính của wrapper cảm ứng là nó chiết xuất từ chỉ những dữ liệu mà người dùng quan tâm đến. Do ghi nhãn hướng dẫn sử dụng, không là không có vấn đề phù hợp với lược đồ. Tuy nhiên, dữ liệu giá trị hoặc trường hợp phù hợp vẫn còn cần thiết. Những khó khăn chính là rằng nó không phải là khả năng mở rộng một số lượng lớn các trang web này do những nỗ lực đáng kể của hướng dẫn sử dụng và bảo trì là rất tốn kém nếu các trang web thay đổi thường xuyên.Những lợi thế chính của tự khai thác là rằng đó là khả năng mở rộng số lượng các trang web lớn, và là chi phí bảo trì ít. Những bất lợi chính là rằng nó có thể trích xuất một số lượng lớn của dữ liệu không mong muốn vì hệ thống không biết những gì là thú vị cho người dùng. Ngoài ra, trong một số ứng dụng, dữ liệu chiết xuất từ nhiều trang web cần tích hợp, ví dụ, lược đồ của họ cũng như các giá trị cần phải được kết hợp, đó là nhiệm vụ khó khăn. Tuy nhiên, nếu các tên miền ứng dụng hẹp, chẩn đoán tên miền có thể đủ để lọc ra dữ liệu không mong muốn và để thực hiện các nhiệm vụ tích hợp.Về khai thác tính chính xác, nó là hợp lý để giả định rằng wrapper cảm ứng chính xác hơn khai thác tự động, mặc dù không có nghiên cứu quy mô lớn báo cáo so sánh hai cách tiếp cận.Thư mục ghi chúKỹ thuật khai thác dữ liệu trang web có thể được phân thành ba loại chính: ngôn ngữ lập trình (1) bao bọc và trực quan các nền tảng, cảm ứng (2) wrapper và khai thác dữ liệu (3) tự động. Phương pháp tiếp cận đầu tiên cung cấp một số mô hình chuyên dụng đặc tả ngôn ngữ và các nền tảng trực quan để giúp người dùng xây dựng chương trình khai thác. Hệ thống theo cách tiếp cận này bao gồm WICCAP [23], Wargo [29], Lixto [3], vv.Phương pháp thứ hai là cảm ứng wrapper, sử dụng giám sát học tập để tìm hiểu các quy định khai thác dữ liệu từ một tập hợp các tự dán nhãn ví dụ tích cực và tiêu cực. Công trình lý thuyết về wrapper học tập dựa trên khuôn khổ PAC học đã được thực hiện bởi Kushmerick [20]. Các hệ thống cảm ứng wrapper ví dụ gồm WIEN [19], Softmealy [17], Stalker [28], WL2 [10], Thresher [15], IDE [38], [18], [43], vv. Hầu hết các hệ thống hiện có dựa trên học quy nạp từ một tập các ví dụ có nhãn. IDE [38] sử dụng một kỹ thuật đơn giản ví dụ dạy học, thực hiện các hoạt động học tập cùng một lúc do đó người dùng chỉ cần gắn nhãn một số rất nhỏ của các trang. Liên quan đến ý tưởng cũng được sử dụng trong [7] và [15]. Hầu hết hệ thống hiện có bao bọc cảm ứng xây dựng hàm bao dựa trên các trang web tương tự từ cùng một trang web. Zhu et al. [44, 45] báo cáo một hệ thống học từ gán nhãn các trang từ nhiều trang web trong một tên miền cụ thể. Các wrapper kết quả có thể được sử dụng để trích xuất dữ liệu từ các trang web khác. Điều này tránh việc lao động khẩn trương xây dựng một wrapper cho mỗi trang web.Phương pháp thứ ba là tự động khai thác. Trong [12], Embley et al. nghiên cứu xác định ranh giới ghi dữ liệu được đưa ra một danh sách trang tự động. Các kỹ thuật sử dụng một tập các quy tắc heuristic và miền ontologies. [4], Buttler et al. đề xuất bổ sung heuristics để thực hiện các nhiệm vụ không sử dụng tên miền ontologies. Các thuật toán MDR thảo luận trong chương này đã được đề xuất bởi Liu et al. [24]. Nó sử dụng chuỗi chỉnh sửa khoảng cách trong việc tìm kiếm mô hình (ngẫu nhiên, Lloyd Allison có một tuyệt vời trang trên chuỗi chỉnh sửa khoảng cách). Một thuật toán dựa trên các thông tin thị giác đã được đưa ra bởi Triệu Tử Dương et al. [42] giải nén kết quả công cụ tìm kiếm. Hình ảnh dựa trên một hệ thống khác được đưa ra trong [31]. Các hệ thống này, Tuy nhiên, không sắp xếp hoặc trích xuất dữ liệu mục từ các bản ghi dữ liệu. Chang et al. [8] báo cáo một hệ thống bán tự động được gọi là IEPAD để tìm kiếm khai thác mô hình từ một trang danh sách để trích xuất dữ liệu mục. Hệ thống DeLa bởi Wang et al. [34] các công trình tương tự như vậy. Hệ thống DEPTA của địch và Liu [40] hoạt động một cách khác nhau. Nó lần đầu tiên có thể phân đoạn dữ liệu hồ sơ, và sau đó gắn và chất chiết xuất từ các mục dữ liệu trong các bản ghi dữ liệu bằng cách sử dụng các thuật toán sắp xếp một phần cây. DEPTA và IEPAD không giải quyết hồ sơ dữ liệu lồng nhau, được xử lý trong NET [25] và DeLa [34]. Các công việc liên quan khác bao gồm [5, 26, 32, 36], mà sử dụng các thông tin thị giác, kiến thức tên miền hoặc neo tự động hàng cây.Hệ thống RoadRunner, nhu cầu nhiều trang như là đầu vào, được đề xuất bởi Crescenzi et al. [11]. Nền tảng lý thuyết của nó đã được đưa ra bởi Grumbach và Mecca [13]. Giáo phái. 9.1 và 9.4 đang chịu ảnh hưởng của bài báo này. Công việc của RoadRunner được cải tiến bởi Arasu và Garcia-Molina trong hệ thống của họ EXALG [1]. Cả hai hệ thống cần nhiều trang đầu vào với một giản đồ/mẫu phổ biến và giả định rằng các trang được đưa ra. Các trang có thể xem chi tiết các trang hoặc các trang danh sách. Phương pháp được đề xuất năm [22] hoạt động trong một khung cảnh tương tự. Một cây phù hợp với phương pháp dựa trên được đưa ra trong [30].
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
9.12 Thảo luận

Cuối cùng, chúng tôi thảo luận về những lợi thế và bất lợi chính của cảm ứng wrapper và khai thác dữ liệu tự động. Ưu điểm chính của wrapper cảm ứng là nó trích chỉ dữ liệu mà người dùng quan tâm. Do dán nhãn sử dụng, không có vấn đề phù hợp schema. Tuy nhiên, giá trị dữ liệu hoặc khớp dụ vẫn là cần thiết. Những khó khăn chính là rằng nó không phải là khả năng mở rộng đến một số lượng lớn các trang web do những nỗ lực của nhãn hiệu quan trọng, và bảo trì rất tốn kém nếu trang web thay đổi thường xuyên.
Các ưu điểm chính của khai thác tự động được rằng đó là khả năng mở rộng đến một số lượng lớn các trang web, và rằng có rất ít chi phí bảo trì. Những bất lợi chính là nó có thể trích xuất một số lượng lớn các dữ liệu không mong muốn bởi vì hệ thống không biết điều gì là thú vị cho người dùng. Ngoài ra, trong một số ứng dụng, dữ liệu được chiết xuất từ nhiều trang web cần hội nhập, tức là, lược đồ của họ cũng như các giá trị cần phải được xuất hiện, đó là những nhiệm vụ khó khăn. Tuy nhiên, nếu các miền ứng dụng là hẹp, heuristics miền có thể là đủ để lọc ra các dữ liệu không mong muốn và thực hiện nhiệm vụ hội nhập.
Xét về độ chính xác khai thác, nó là hợp lý để giả định rằng wrapper cảm ứng chính xác hơn khai thác tự động, mặc dù có không có báo cáo nghiên cứu quy mô lớn so sánh hai cách tiếp cận.

thư mục ghi chú

kỹ thuật khai thác dữ liệu Web có thể được phân thành ba loại chính: (1) ngôn ngữ lập trình bao bọc và các nền tảng trực quan, (2) bao bọc cảm ứng, và (3) khai thác dữ liệu tự động. Các phương pháp tiếp cận đầu tiên cung cấp một số ngôn ngữ mô hình đặc điểm kỹ thuật chuyên ngành và các nền tảng trực quan để giúp người sử dụng xây dựng các chương trình khai thác. Các hệ thống theo phương pháp này bao gồm WICCAP [23], Wargo [29], Lixto [3], vv
Cách tiếp cận thứ hai là wrapper cảm ứng, sử dụng học có giám sát để học quy tắc trích xuất dữ liệu từ một tập hợp các ví dụ tích cực và tiêu cực được dán nhãn bằng tay. Một nghiên cứu lý thuyết về học tập wrapper dựa trên khuôn khổ học tập PAC đã được thực hiện bởi Kushmerick [20]. Hệ thống cảm ứng dụ wrapper bao gồm Wien [19], Softmealy [17], Stalker [28], WL2 [10], Thresher [15], IDE [38], [18], [43], vv Hầu hết các hệ thống hiện có dựa về học tập quy nạp từ một tập hợp các ví dụ nhãn. IDE [38] sử dụng một kỹ thuật học tập ví dụ đơn giản dựa trên, thực hiện học tập tích cực cùng một lúc do đó người dùng chỉ cần dán nhãn một số lượng rất nhỏ của các trang. Ý tưởng liên quan cũng được sử dụng trong [7] và [15]. Hầu hết các hệ wrapper cảm ứng hiện xây dựng hàm bao dựa trên các trang tương tự từ cùng một trang web. Zhu et al. [44, 45] đã báo cáo một hệ thống học từ các trang nhãn từ nhiều trang web trong một lĩnh vực cụ thể. Các wrapper kết quả có thể được sử dụng để trích xuất dữ liệu từ các trang web khác. Điều này tránh sự lao động làm việc chuyên sâu của việc xây dựng một wrapper cho mỗi trang web.
Cách tiếp cận thứ ba là khai thác tự động. Trong [12], Embley et al. nghiên cứu nhận dạng tự động ranh giới bản ghi dữ liệu cho một trang danh sách. Kỹ thuật này sử dụng một bộ quy tắc heuristic và các ontology miền. Trong [4], Buttler et al. đề xuất công nghệ tự động thêm để thực hiện các nhiệm vụ mà không sử dụng các ontology miền. Các thuật toán MDR thảo luận trong chương này đã được đề xuất bởi Liu et al. [24]. Nó sử dụng chuỗi chỉnh sửa khoảng cách trong mô hình phát hiện (tình cờ, Lloyd Allison có một trang tuyệt vời trên chuỗi chỉnh sửa khoảng cách). Một thuật toán dựa trên các thông tin hình ảnh được đưa ra bởi Zhao et al. [42] để trích xuất kết quả công cụ tìm kiếm. Một hệ thống dựa trên hình ảnh được đưa ra trong [31]. Những hệ thống này, tuy nhiên, không phù hợp hoặc trích xuất các dữ liệu từ các bản ghi dữ liệu. Chang et al. [8] đã báo cáo một hệ thống bán tự động gọi IEPAD để tìm mô hình khai thác từ một trang danh sách để trích xuất các dữ liệu. Hệ thống Dela bởi Wang et al. [34] làm việc tương tự. Hệ thống DEPTA bởi Zhai và Liu [40] hoạt động theo một cách khác. Nó đầu tiên các hồ sơ phân đoạn dữ liệu, và sau đó gắn và trích xuất các dữ liệu trong các bản ghi dữ liệu bằng cách sử dụng thuật toán sắp xếp cây một phần. Cả hai DEPTA và IEPAD không đối phó với các hồ sơ dữ liệu lồng nhau, được đề cập trong NET [25] và Dela [34]. Công việc liên quan khác bao gồm [5, 26, 32, 36], trong đó sử dụng các thông tin hình ảnh, kiến thức miền hoặc tự động tìm thấy cây neo.
Hệ thống RoadRunner, mà cần nhiều trang như đầu vào, được đề xuất bởi Crescenzi et al. [11]. Nền tảng lý thuyết đã được đưa ra bởi Grumbach và Mecca [13]. Giáo phái. 9.1 và 9.4 đều bị ảnh hưởng bởi giấy này. Công việc của RoadRunner đã được cải thiện bằng cách Arasu và Garcia-Molina trong hệ thống EXALG của họ [1]. Cả hai hệ thống cần nhiều trang đầu vào với một lược đồ chung / mẫu và cho rằng các trang này được đưa ra. Các trang có thể là các trang chi tiết hoặc các trang danh sách. Các phương pháp được đề xuất trong [22] hoạt động trong một khung cảnh tương tự. Một phương pháp cây phù hợp dựa trên được đưa ra trong [30].
đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2024 I Love Translation. All reserved.

E-mail: