9.12 Thảo luận
Cuối cùng, chúng tôi thảo luận về những lợi thế và bất lợi chính của cảm ứng wrapper và khai thác dữ liệu tự động. Ưu điểm chính của wrapper cảm ứng là nó trích chỉ dữ liệu mà người dùng quan tâm. Do dán nhãn sử dụng, không có vấn đề phù hợp schema. Tuy nhiên, giá trị dữ liệu hoặc khớp dụ vẫn là cần thiết. Những khó khăn chính là rằng nó không phải là khả năng mở rộng đến một số lượng lớn các trang web do những nỗ lực của nhãn hiệu quan trọng, và bảo trì rất tốn kém nếu trang web thay đổi thường xuyên.
Các ưu điểm chính của khai thác tự động được rằng đó là khả năng mở rộng đến một số lượng lớn các trang web, và rằng có rất ít chi phí bảo trì. Những bất lợi chính là nó có thể trích xuất một số lượng lớn các dữ liệu không mong muốn bởi vì hệ thống không biết điều gì là thú vị cho người dùng. Ngoài ra, trong một số ứng dụng, dữ liệu được chiết xuất từ nhiều trang web cần hội nhập, tức là, lược đồ của họ cũng như các giá trị cần phải được xuất hiện, đó là những nhiệm vụ khó khăn. Tuy nhiên, nếu các miền ứng dụng là hẹp, heuristics miền có thể là đủ để lọc ra các dữ liệu không mong muốn và thực hiện nhiệm vụ hội nhập.
Xét về độ chính xác khai thác, nó là hợp lý để giả định rằng wrapper cảm ứng chính xác hơn khai thác tự động, mặc dù có không có báo cáo nghiên cứu quy mô lớn so sánh hai cách tiếp cận.
thư mục ghi chú
kỹ thuật khai thác dữ liệu Web có thể được phân thành ba loại chính: (1) ngôn ngữ lập trình bao bọc và các nền tảng trực quan, (2) bao bọc cảm ứng, và (3) khai thác dữ liệu tự động. Các phương pháp tiếp cận đầu tiên cung cấp một số ngôn ngữ mô hình đặc điểm kỹ thuật chuyên ngành và các nền tảng trực quan để giúp người sử dụng xây dựng các chương trình khai thác. Các hệ thống theo phương pháp này bao gồm WICCAP [23], Wargo [29], Lixto [3], vv
Cách tiếp cận thứ hai là wrapper cảm ứng, sử dụng học có giám sát để học quy tắc trích xuất dữ liệu từ một tập hợp các ví dụ tích cực và tiêu cực được dán nhãn bằng tay. Một nghiên cứu lý thuyết về học tập wrapper dựa trên khuôn khổ học tập PAC đã được thực hiện bởi Kushmerick [20]. Hệ thống cảm ứng dụ wrapper bao gồm Wien [19], Softmealy [17], Stalker [28], WL2 [10], Thresher [15], IDE [38], [18], [43], vv Hầu hết các hệ thống hiện có dựa về học tập quy nạp từ một tập hợp các ví dụ nhãn. IDE [38] sử dụng một kỹ thuật học tập ví dụ đơn giản dựa trên, thực hiện học tập tích cực cùng một lúc do đó người dùng chỉ cần dán nhãn một số lượng rất nhỏ của các trang. Ý tưởng liên quan cũng được sử dụng trong [7] và [15]. Hầu hết các hệ wrapper cảm ứng hiện xây dựng hàm bao dựa trên các trang tương tự từ cùng một trang web. Zhu et al. [44, 45] đã báo cáo một hệ thống học từ các trang nhãn từ nhiều trang web trong một lĩnh vực cụ thể. Các wrapper kết quả có thể được sử dụng để trích xuất dữ liệu từ các trang web khác. Điều này tránh sự lao động làm việc chuyên sâu của việc xây dựng một wrapper cho mỗi trang web.
Cách tiếp cận thứ ba là khai thác tự động. Trong [12], Embley et al. nghiên cứu nhận dạng tự động ranh giới bản ghi dữ liệu cho một trang danh sách. Kỹ thuật này sử dụng một bộ quy tắc heuristic và các ontology miền. Trong [4], Buttler et al. đề xuất công nghệ tự động thêm để thực hiện các nhiệm vụ mà không sử dụng các ontology miền. Các thuật toán MDR thảo luận trong chương này đã được đề xuất bởi Liu et al. [24]. Nó sử dụng chuỗi chỉnh sửa khoảng cách trong mô hình phát hiện (tình cờ, Lloyd Allison có một trang tuyệt vời trên chuỗi chỉnh sửa khoảng cách). Một thuật toán dựa trên các thông tin hình ảnh được đưa ra bởi Zhao et al. [42] để trích xuất kết quả công cụ tìm kiếm. Một hệ thống dựa trên hình ảnh được đưa ra trong [31]. Những hệ thống này, tuy nhiên, không phù hợp hoặc trích xuất các dữ liệu từ các bản ghi dữ liệu. Chang et al. [8] đã báo cáo một hệ thống bán tự động gọi IEPAD để tìm mô hình khai thác từ một trang danh sách để trích xuất các dữ liệu. Hệ thống Dela bởi Wang et al. [34] làm việc tương tự. Hệ thống DEPTA bởi Zhai và Liu [40] hoạt động theo một cách khác. Nó đầu tiên các hồ sơ phân đoạn dữ liệu, và sau đó gắn và trích xuất các dữ liệu trong các bản ghi dữ liệu bằng cách sử dụng thuật toán sắp xếp cây một phần. Cả hai DEPTA và IEPAD không đối phó với các hồ sơ dữ liệu lồng nhau, được đề cập trong NET [25] và Dela [34]. Công việc liên quan khác bao gồm [5, 26, 32, 36], trong đó sử dụng các thông tin hình ảnh, kiến thức miền hoặc tự động tìm thấy cây neo.
Hệ thống RoadRunner, mà cần nhiều trang như đầu vào, được đề xuất bởi Crescenzi et al. [11]. Nền tảng lý thuyết đã được đưa ra bởi Grumbach và Mecca [13]. Giáo phái. 9.1 và 9.4 đều bị ảnh hưởng bởi giấy này. Công việc của RoadRunner đã được cải thiện bằng cách Arasu và Garcia-Molina trong hệ thống EXALG của họ [1]. Cả hai hệ thống cần nhiều trang đầu vào với một lược đồ chung / mẫu và cho rằng các trang này được đưa ra. Các trang có thể là các trang chi tiết hoặc các trang danh sách. Các phương pháp được đề xuất trong [22] hoạt động trong một khung cảnh tương tự. Một phương pháp cây phù hợp dựa trên được đưa ra trong [30].
đang được dịch, vui lòng đợi..