Cho một Set của Trang Danh sách
từ các kỹ thuật được mô tả trong các phần trước là cho một trang danh sách duy nhất, họ rõ ràng có thể được áp dụng cho nhiều trang danh sách. Các mô hình phát hiện từ một trang duy nhất có thể được sử dụng để trích xuất dữ liệu từ phần còn lại của trang. Nhiều trang danh sách cũng có thể giúp cải thiện việc khai thác. Ví dụ, mô hình từ tất cả các trang đầu vào có thể được tìm thấy một cách riêng biệt và sáp nhập để sản xuất một mẫu tinh duy nhất. Điều này có thể đối phó với các vấn đề mà một trang duy nhất có thể không có thông tin đầy đủ.
Cho một Set các chi tiết trang
Trong một số ứng dụng, cần trích xuất dữ liệu từ các trang chi tiết vì chúng chứa nhiều thông tin. Ví dụ, trong một trang danh sách, thông tin trên mỗi sản phẩm thường khá ngắn gọn, ví dụ, chỉ chứa tên, hình ảnh, và giá cả. Tuy nhiên, nếu một ứng dụng cũng cần mô tả sản phẩm và khách hàng đánh giá, người ta phải trích xuất chúng từ các trang chi tiết.
Đối với khai thác từ các trang chi tiết, chúng ta có thể đối xử với mỗi trang như một bản ghi dữ liệu và áp dụng các thuật toán được mô tả trong phái. 9.8 và / hoặc phái. 9.9. Ví dụ, để áp dụng các thuật toán NET, chúng ta có thể chỉ đơn giản là xây dựng một cây bén rễ đầu vào NET như sau: (1) tạo ra một nút gốc nhân tạo, và (2) làm cho cây DOM của mỗi trang như một đứa trẻ tiểu cây gốc nhân tạo.
đang được dịch, vui lòng đợi..
