Phương trình (6.4) cho thấy rằng sự tự tin của quy tắc một ⇒ B có thể dễ dàng bắt nguồn từ đếm sự hỗ trợ của một và một u sinh Có nghĩa là, một khi sự hỗ trợ tính số A, B, và một u B được tìm thấy, nó là đơn giản để lấy được tương ứng Hiệp hội quy tắc A ⇒ B và B ⇒ A và kiểm tra cho dù họ rất mạnh. Vì vậy, vấn đề khai thác mỏ Hiệp hội quy định có thể được giảm với các itemsets thường xuyên và khai thác mỏ.Nói chung, association rule mining có thể được xem như là một quá trình hai bước:1. Tìm tất cả các itemsets thường xuyên: theo định nghĩa, mỗi người trong số các itemsets sẽ xảy ra ít thường xuyên như một số hỗ trợ tối thiểu định trước, min sup.2. tạo ra các quy tắc của Hiệp hội mạnh mẽ từ itemsets thường xuyên: theo định nghĩa, những quy tắc này phải đáp ứng hỗ trợ tối thiểu và tối thiểu sự tự tin.Các biện pháp bổ sung interestingness có thể được áp dụng cho việc phát hiện mối quan hệ tương quan giữa các mục liên quan, như sẽ được thảo luận trong phần 6.3 Bởi vì bước thứ hai là ít hơn nhiều tốn kém hơn so với lần đầu tiên, hiệu suất tổng thể của khai thác mỏ Hiệp hội quy định được xác định bởi bước đầu tiên.Một thách thức lớn trong khai thác mỏ itemsets thường xuyên từ một tập dữ liệu lớn là một thực tế rằng khai thác mỏ như vậy thường tạo ra một số lượng lớn các itemsets, đáp ứng các ngưỡng hỗ trợ tối thiểu (min sup), đặc biệt là khi min sup được đặt thành thấp. Điều này là bởi vì nếu một itemset là thường xuyên, mỗi tập con của nó thường xuyên là tốt. Itemset dài sẽ chứa một số combinato-rial ngắn hơn, thường xuyên phụ-itemsets. Ví dụ, thường xuyên itemset chiều dài100, chẳng hạn như {a1, a2,..., a100}, chứa.100. = thường xuyên 1 100-itemsets: {a1}, {a2},...,{a100};.100. thường xuyên 2-itemsets: {a1, a2}, {a1, a3},..., {a99, a100}; và như vậy. Tổng số itemsets thường xuyên mà nó chứa là như vậy .100.1 + .100.2 + · · · + .100.100 100= − 1 ≈ 1.27 × 10 . (6.5) Điều này là quá lớn một số itemsets cho bất kỳ máy tính nào để tính toán hoặc lưu trữ. Đến hơn-đến khó khăn này, chúng tôi giới thiệu các khái niệm đóng cửa thường xuyên itemset và tối đa itemset thường xuyên.Một itemset X đóng cửa trong một tập hợp dữ liệu D nếu có tồn tại không có super-itemset đúng Y 5 như vậy Y đã cùng hỗ trợ đếm như X trong mất Một itemset X là một itemset thường xuyên đóng cửa trong thiết lập D nếu X là đóng cửa và thường xuyên trong mất Một itemset X là một tối đa thường xuyên itemset (hoặc max-itemset) trong một tập hợp dữ liệu D nếu X là thường xuyên, và có tồn tại không có super-itemset Ynhư vậy mà X ⊂ Y và Y là thường xuyên trong mấtGiả sử C là các thiết lập của itemsets thường xuyên đóng cho một tập hợp dữ liệu D đáp ứng một ngưỡng sup-cổng tối thiểu, min sup. Giả sử M là tập hợp tối đa thường xuyên itemsets cho D min sup, đáp ứng. Giả sử rằng chúng tôi có hỗ trợ tính của mỗi itemset trong C và M. thông báo rằng C và thông tin số của nó có thể được sử dụng để lấy được các thiết lập toàn bộ của itemsets thường xuyên.5Y là một siêu thích hợp itemset x nếu X là một sub đúng itemset của Y, đó là, nếu X ⊂ Y. Nói cách khác, mỗi mục X được chứa trong Y nhưng có ít nhất một mục của Y đó không phải là trong X.
đang được dịch, vui lòng đợi..
