thu thập những vật phẩm đáp ứng hỗ trợ tối thiểu. Các bộ kết quả được biểu thị bởi L1. Tiếp theo, L1 được sử dụng để tìm L2, bộ thường xuyên 2 tập phổ biến, được sử dụng để tìm L3, và như vậy, cho đến khi không thường xuyên hơn k-tập phổ biến có thể được tìm thấy. . Phát hiện của mỗi Lc đòi hỏi một quét toàn bộ cơ sở dữ liệu
để nâng cao hiệu quả của các thế hệ trình độ khôn ngoan của tập phổ biến, một tài sản quan trọng được gọi là tài sản Apriori được sử dụng để giảm không gian tìm kiếm.
Tài sản Apriori: Tất cả các tập con khác rỗng của một tập phổ biến cũng phải được thường xuyên.
các tài sản Apriori được dựa trên những quan sát sau. Theo định nghĩa, nếu một bộ item- tôi không đáp ứng các ngưỡng hỗ trợ tối thiểu, min sup, sau đó tôi không phải là thường xuyên, nghĩa là P (I) <min sup. Nếu một mục A được thêm vào các tập phổ biến tôi, thì kết quả là tập phổ biến (tức là, tôi ∪ A) không có thể xảy ra thường xuyên hơn I. Vì vậy, tôi ∪ A là không thường xuyên, hoặc, đó là, P (I ∪ A) <min sup.
Khách sạn này thuộc về một thể loại đặc biệt của tài sản được gọi là antimonotonicity trong
ý nghĩa rằng nếu một tập hợp không thể vượt qua một bài kiểm tra, tất cả các supersets của nó sẽ thất bại cùng một thử nghiệm là tốt. Nó được gọi là antimonotonicity vì tài sản là đơn điệu trong bối cảnh không một test.6
"Làm thế nào là tài sản Apriori được sử dụng trong các thuật toán?" Để hiểu điều này, chúng ta hãy nhìn vào cách Lk-1 được sử dụng để tìm Lc cho k ≥ 2. Một quá trình hai bước theo sau, bao gồm tham gia và prune hành động.
1. Các bước tham gia: Để tìm Lc, một tập hợp các ứng cử viên k-tập phổ biến được tạo ra bằng cách tham gia Lk-1 với chính nó. Điều này đặt các ứng cử viên được ký hiệu là Ck. Hãy l1 và l2 là tập phổ biến trong Lk-1. Các ký hiệu li [j] đề cập đến mục thứ j trong li (ví dụ, l1 [k - 2] đề cập đến thứ hai đến mục cuối cùng trong l1). Để thực hiện hiệu quả, Apriori giả định rằng các mục bên trong một giao dịch hoặc tập phổ biến đều được sắp xếp theo thứ tự tự từ điển. Đối với
các (k - 1) -itemset, li, điều này có nghĩa rằng các mục được sắp xếp như vậy mà li [1] <li [2]
<· · · <li [k - 1]. Các join, Lk-1 ✶ Lk-1, được thực hiện, nơi các thành viên của Lk-1 là
joinable nếu đầu tiên của họ (k - 2) ghi được điểm chung. Đó là, các thành viên L1 và L2
của Lk-1 được tham gia nếu (l1 [1] = l2 [1]) ∧ (l1 [2] = l2 [2]) ∧ · · · ∧ (l1 [k - 2] = l2 [k - 2])
∧ (l1 [k - 1] <l2 [k - 1]). Các điều kiện l1 [k - 1] <l2 [k - 1] chỉ cần đảm bảo rằng không có bản sao được tạo ra. Các tập phổ biến dẫn đến hình thành bằng cách tham gia l1 và l2 là
{l1 [1], l1 [2],. . . , L1 [k - 2], l1 [k - 1], l2 [k - 1].}
2. Bước prune: Ck là một siêu của Lc, có nghĩa là, các thành viên của nó có thể hoặc không thể được thường xuyên, nhưng tất cả các thường xuyên k-tập phổ biến có trong Ck. Một cơ sở dữ liệu quét để xác định số lượng của mỗi ứng cử viên trong Ck sẽ cho kết quả trong việc xác định Lc (tức là, tất cả các ứng cử viên có một số không ít hơn số lượng hỗ trợ tối thiểu là thường xuyên theo định nghĩa, và do đó thuộc về Lc). Ck, tuy nhiên, có thể là rất lớn, và vì vậy điều này có thể liên quan đến việc tính toán nặng. Để giảm kích thước của Ck, tài sản Apriori
tài sản 6The Apriori có nhiều ứng dụng. Ví dụ, nó cũng có thể được sử dụng để tỉa tìm kiếm trong khối dữ liệu tính toán (Chương 5).
đang được dịch, vui lòng đợi..