Để phát hiện các mẫu mới mà không bị mất hiệu quả của mô hình khai thác khoáng sản từ mỗi trang, một chiến lược trước khi sàng lọc có thể được áp dụng. Trong hầu hết các ứng dụng, người dùng quan tâm chỉ là một loại dữ liệu cụ thể, ví dụ, các sản phẩm, ấn phẩm nghiên cứu, hoặc thông tin việc làm. Nó thường có thể thiết kế một số chẩn đoán đơn giản và hiệu quả để kiểm tra xem một trang có chứa các dữ liệu đó. Nếu vậy, một chiết toàn diện được thực hiện sử dụng các mẫu đã được tạo ra. Nếu không có dữ liệu được trích xuất từ trang này, nó là một dấu hiệu cho thấy các trang được mã hóa với một mẫu khác nhau. Một quá trình khai thác mỏ mới có thể được bắt đầu khám phá các mẫu mới.
đang được dịch, vui lòng đợi..
