Vì vậy, chúng ta nói rằng C có chứa các thông tin đầy đủ về itemsets thường xuyên tương ứng. Mặt khác, M đăng ký chỉ là sự hỗ trợ của itemsets tối đa. Nó thường không chứa thông tin đầy đủ hỗ trợ liên quan đến nó thường xuyên itemsets tương ứng. Chúng tôi minh họa cho những khái niệm với ví dụ 6.2.Ví dụ 6.2 đóng và tối đa itemsets thường xuyên. Giả sử rằng một cơ sở dữ liệu giao dịch có hai giao dịch: {(a1, a2,..., a100); (a1, a2,..., a50)}. Cho phép hỗ trợ tối thiểu tính ngưỡng là min sup = 1. Chúng tôi tìm thấy hai đóng cửa thường xuyên itemsets và số lần hỗ trợ của họ, có nghĩa là, C = {{a1, a2,..., a100}: 1; {a1, a2,..., a50}: 2}. đó là chỉ có một tối đa-imal thường xuyên itemset: M = {{a1, a2,..., a100}: 1}. thông báo rằng chúng tôi không thể bao gồm{a1, a2,..., a50} như là một tối đa thường xuyên itemset bởi vì nó có một superset thường xuyên,{a1, a2,..., a100}. So sánh này để các ngay trước nơi mà chúng tôi xác định rằng không có 2100 − 1 thường xuyên itemsets, đó là quá nhiều để được liệt kê!Các thiết lập của đóng cửa thường xuyên itemsets chứa các thông tin đầy đủ về fre-quent itemsets. Ví dụ: từ C, chúng tôi có thể lấy được, nói rằng, (1) {a2, a45: 2} kể từ {a2, a45} là một lần phụ itemset itemset {a1, a2,..., a50: 2}; và (2) {a8, a55: 1} kể từ {a8, a55} không phải là một tiểu-itemset itemset trước nhưng itemset {a1, a2,..., a100: 1}. Tuy nhiên, từ thường xuyên itemset tối đa, chúng tôi có thể chỉ khẳng định rằng cả hai itemsets ({a2, a45} và{a8, a55}) đều thường xuyên, nhưng chúng tôi không thể khẳng định số lần thực sự hỗ trợ của họ.6.2 thường xuyên các phương pháp khai thác mỏ ItemsetTrong phần này, bạn sẽ tìm hiểu các phương pháp để khai thác các hình thức đơn giản nhất của pat-Nhạn thường xuyên như những thảo luận để phân tích thị trường giỏ trong phần 6.1.1. Chúng tôi bắt đầu bằng cách trình bày Apriori, các thuật toán cơ bản cho việc tìm kiếm thường xuyên itemsets (phần 6.2.1). Trong phần 6.2.2, chúng tôi xem xét làm thế nào để tạo quy tắc của Hiệp hội mạnh mẽ từ bộ mặt thường xuyên. Phần 6.2.3 mô tả một số biến thể với các thuật toán Apriori để cải thiện hiệu quả và khả năng mở rộng. Phần 6.2.4 trình bày phương pháp mô hình tăng trưởng cho khai thác mỏ, itemsets thường xuyên nhốt trong không gian tìm kiếm tiếp theo để chỉ bộ dữ liệu chứa-ing thường xuyên itemsets hiện nay. Phần 6.2.5 trình bày phương pháp khai thác mỏ, itemsets thường xuyên tận dụng lợi thế của các định dạng dữ liệu theo chiều dọc.6.2.1 thuật toán Apriori: việc tìm kiếm thường xuyên Itemsets bằng cách giới hạn thế hệ ứng cử viênApriori là một thuật toán hội thảo được đề xuất bởi R. Agrawal và R. Srikant vào năm 1994 cho min-ing thường xuyên itemsets cho phép Hiệp hội các quy tắc [AS94b]. Tên của các thuật toán là dựa trên thực tế là các thuật toán sử dụng kiến thức trước khi thường xuyên itemset prop-erties, như chúng ta sẽ thấy sau này. Apriori sử dụng một cách tiếp cận lặp đi lặp lại được biết đến như một tìm kiếm level-wise, nơi k-itemsets được sử dụng để khám phá (k + 1)-itemsets. Trước tiên, thiết lập 1-itemsets thường xuyên được tìm thấy bằng cách quét các cơ sở dữ liệu tích lũy số lượng cho mỗi mục, và
đang được dịch, vui lòng đợi..
