Web thông tin khai thác là các vấn đề về giải nén thông tin mục tiêuCác mặt hàng từ trang Web. Có hai vấn đề chung: trích xuất thông tin từ văn bản ngôn ngữ tự nhiên và chiết xuất có cấu trúc dữ liệu từ trang WebTrang. Chương này tập trung vào việc trích xuất dữ liệu có cấu trúc. Một chương trình chogiải nén dữ liệu như vậy thường được gọi là một wrapper. Giải nén thông tintừ văn bản nghiên cứu chủ yếu trong ngôn ngữ tự nhiên chế biến cộng đồng.Cấu trúc dữ liệu trên các trang Web thường là dữ liệu hồ sơ Lấy từcơ sở dữ liệu cơ bản và các trang Web được hiển thị ở sau một số cố địnhmẫu. Trong chương này, chúng tôi vẫn gọi cho họ bản ghi dữ liệu. Chiết xuất như vậybản ghi dữ liệu rất hữu ích vì nó cho phép chúng tôi để có được và tích hợp dữ liệutừ nhiều nguồn khác nhau (các trang Web và các trang) để cung cấp các dịch vụ giá trị gia tăng,Ví dụ, có thể tùy chỉnh trang Web thông tin thu thập, Mua sắm so sánh,Meta-tìm kiếm, v.v... Với nhiều hơn và nhiều hơn nữa các công ty và các tổ chứcphổ biến các thông tin trên Web, khả năng trích xuất các dữ liệu từTrang web đang trở nên ngày càng quan trọng. Tại thời điểm văn bản nàycuốn sách, có một số công ty làm việc trên chiết xuất sản phẩm bántrực tuyến, đánh giá sản phẩm, công việc đăng, Ấn phẩm nghiên cứu, diễn đànthảo luận, bảng dữ liệu thống kê, tin tức, kết quả tìm kiếm, vv.Các nhà nghiên cứu và các công ty Internet bắt đầu làm việc vào việc khai thácvấn đề từ giữa thập niên 1990. Hiện có ba cách tiếp cận chính:1. hướng dẫn sử dụng phương pháp: bằng cách quan sát các trang Web và mã nguồn của nó, cáclập trình viên của con người tìm thấy một số mô hình và sau đó viết một chương trình đểtrích xuất dữ liệu mục tiêu. Để làm cho quá trình đơn giản cho các lập trình,một số mô hình ngôn ngữ đặc tả và giao diện người dùng đãđược xây dựng. Tuy nhiên, cách tiếp cận này không phải là khả năng mở rộng số lượng các trang web lớn.2. bao bọc cảm ứng: đây là phương pháp giám sát học tập, vàbán tự động. Công việc bắt đầu khoảng năm 1995-1996. Trong cách tiếp cận này, mộtnguyên tắc khai thác đã học được từ một bộ sưu tập theo cách thủ công có nhãndữ liệu hoặc các trang hồ sơ. Các quy tắc sau đó được sử dụng để trích xuất dữ liệu mục tiêumục từ các trang tương tự như định dạng khác.
đang được dịch, vui lòng đợi..
