Các thuật toán tốt nhất là giải thích với một ví dụ, được đưa ra trong Fig.9.43. Trong hình này, trang 1 trên bên trái (trong mã HTML) là các wrapper ban đầu. Trang 2 trên bên phải là một trang mới để phù hợp với trang 1.Chúng ta hãy nhìn vào một số trận đấu và mismatches. Dòng 13 của cả hai trang này đều giống nhau và do đó phù hợp. Dòng 4 của cả hai trang này là các chuỗi ký tự và là khác nhau. Họ là như vậy, các mục dữ liệu cần được trích xuất. Chúng tôi đi xa hơn. Dòng 6 các trang không phù hợp. Dòng 6 Trang 1 trận dòng 7 trang 2. Vì vậy, có khả năng là tùy chọn. Dòng 11 trang 1 và trang 2 dòng 12 cung cấp cho một mismatch. Vì chúng là các chuỗi ký tự, chúng là như vậy, các mục dữ liệu cần được trích xuất. Dòng 17 trong số trang 1 và dòng 18 trang 2 cũng là bản ghi dữ liệu. Mismatch khác xảy ra tại đường 19 trang 1 và dòng 20 trang 2. Tiếp tục phân tích sẽ thấy rằng chúng tôi có một danh sách ở đây. Wrapper cuối cùng biểu hiện tinh thường xuyên được đưa ra ở dưới cùng của hình 9.43.
đang được dịch, vui lòng đợi..
