Việc tính toán được thực hiện bằng giao điểm của các bộ TID của thường xuyên k-tập phổ biến để tính toán các bộ TID của tương ứng (k + 1) -itemsets. Quá trình này lặp đi lặp lại, với k tăng thêm 1 mỗi lần, cho đến khi không tập phổ biến hoặc tập phổ biến ứng cử viên có thể được tìm thấy.
Bên cạnh đó lợi dụng tài sản Apriori trong thế hệ của ứng viên (k + 1) -itemset từ thường xuyên k-tập phổ biến, công đức khác của phương pháp này là không có nhu cầu để quét các cơ sở dữ liệu để tìm sự hỗ trợ của (k + 1) -itemsets (k ≥ 1). Điều này là do các bộ TID của mỗi k-itemset mang đầy đủ thông tin cần thiết để tính hỗ trợ như vậy. Tuy nhiên, các bộ TID có thể khá lâu, lấy không gian bộ nhớ đáng kể cũng như thời gian tính toán cho giao nhau các bộ dài.
Để giảm hơn nữa chi phí đăng ký bộ TID dài, cũng như các chi phí tiếp theo của nút giao thông, chúng ta có thể sử dụng một kỹ thuật gọi diffset, mà theo dõi các chỉ sự khác nhau của các bộ TID của một (k + 1) -itemset và k-itemset tương ứng. Ví dụ, trong ví dụ 6.6, chúng tôi có {I1} = {T100, T400, T500, T700, T800, T900} và {I1, I2} = {T100, T400, T800, T900}. Các diffset giữa hai là diffset ({I1, I2}, {I1}) =
{T500, T700}. Như vậy, thay vì ghi bốn TIDs tạo nên các giao điểm của
{I1} và {} I2, chúng ta có thể sử dụng thay thế diffset để ghi lại chỉ hai TIDs, cho thấy sự khác biệt giữa {I1} và {I1, I2}. Các thí nghiệm cho thấy, trong những tình huống nhất định, chẳng hạn như khi tập dữ liệu có chứa nhiều mẫu dày và dài, kỹ thuật này có thể làm giảm đáng kể tổng chi phí khai thác định dạng theo chiều dọc của tập phổ biến.
6.2.6 Khai thác Closed và Max Patterns
Trong phần 6.1.2, chúng tôi thấy như thế nào thường xuyên khai thác tập phổ biến có thể tạo ra một số lượng lớn các tập phổ biến, đặc biệt là khi các ngưỡng min sup được thiết lập thấp hoặc khi có tồn tại mô hình dài trong tập dữ liệu. Ví dụ 6.2 cho thấy đóng thường xuyên itemsets9 có thể làm giảm đáng kể số lượng các mô hình tạo ra trong khai thác tập phổ biến trong khi vẫn giữ các thông tin đầy đủ về các thiết lập của tập phổ biến. Đó là, từ tập các tập phổ biến đóng, chúng ta có thể dễ dàng lấy được các thiết lập của tập phổ biến và hỗ trợ của họ. Vì vậy, trong thực tế, đó là mong muốn nhiều hơn để khai thác các thiết lập của tập phổ biến đóng hơn là tập tất cả các tập phổ biến trong hầu hết các trường hợp.
"Làm thế nào chúng ta có thể khai thác đóng tập phổ biến?" Một cách tiếp cận ngây thơ sẽ là mỏ đầu tiên các bộ hoàn chỉnh của tập phổ biến và sau đó loại bỏ tất cả các tập phổ biến đó là một tập hợp con đúng, và thực sự hỗ trợ tương tự như, một tập phổ biến hiện nay. Tuy nhiên, điều này là khá tốn kém. Như thể hiện trong ví dụ 6.2, phương pháp này sẽ phải đầu tiên lấy được 2100-1 tập phổ biến để có được một chiều dài 100 tập phổ biến, tất cả trước khi nó có thể bắt đầu để loại bỏ tập phổ biến dư thừa. Đây là tốn kém. Trong thực tế, có tồn tại
chỉ có một số lượng rất nhỏ của tập phổ biến đóng trong tập dữ liệu Ví dụ 6.2 của.
Một phương pháp được khuyến cáo là để tìm kiếm các tập phổ biến đóng trực tiếp dur- ing quá trình khai thác. Điều này đòi hỏi chúng ta phải tỉa không gian tìm kiếm ngay khi chúng tôi
9Remember rằng X là một tập phổ biến đóng trong một bộ dữ liệu S nếu có tồn tại không thích hợp siêu itemset Y
như rằng Y có tính hỗ trợ tương tự như X trong S và X thỏa mãn hỗ trợ tối thiểu.
đang được dịch, vui lòng đợi..