6.2.4 Cách tiếp cận mẫu-Tăng trưởng cho khai thác tập phổ biến
Như chúng ta đã thấy, trong nhiều trường hợp, các ứng cử viên Apriori phương pháp tạo ra-và-kiểm tra signifi- đáng làm giảm kích thước của bộ ứng cử viên, dẫn đến tăng hiệu suất tốt. Tuy nhiên, nó có thể bị từ hai chi phí không tầm thường:
Nó vẫn có thể cần phải tạo ra một số lượng lớn các bộ ứng cử viên. Ví dụ, nếu có 104 thường xuyên 1-tập phổ biến, các thuật toán Apriori sẽ cần phải tạo ra hơn 107 ứng cử viên 2 tập phổ biến.
Nó có thể cần phải liên tục quét toàn bộ cơ sở dữ liệu và kiểm tra một tập hợp lớn các ứng cử viên do mô hình kết hợp. Nó là tốn kém để đi qua mỗi giao dịch trong cơ sở dữ liệu để xác định sự hỗ trợ của các tập phổ biến ứng cử viên.
"Chúng ta có thể thiết kế một phương pháp mà mìn bộ hoàn chỉnh các tập phổ biến mà không có một thế hệ quá trình ứng cử viên tốn kém như vậy?" Một phương pháp thú vị trong nỗ lực này là được gọi là mô hình tăng trưởng thường xuyên, hoặc chỉ đơn giản là FP-tăng trưởng, mà thông qua một chiến lược chia-và-chinh phục như sau. Đầu tiên, nó nén cơ sở dữ liệu đại diện cho các mặt hàng thường xuyên vào một cây thường xuyên mẫu, hoặc FP-tree, mà vẫn giữ được thông tin liên kết tập phổ biến. Sau đó nó phân chia cơ sở dữ liệu nén vào một tập hợp các cơ sở dữ liệu có điều kiện (một loại đặc biệt của cơ sở dữ liệu dự), mỗi liên kết với một mục thường xuyên hoặc "mô hình mảnh", và mỏ mỗi cơ sở dữ liệu riêng biệt. Đối với mỗi "mảnh mô hình", chỉ tập hợp dữ liệu có liên quan của nó cần phải được kiểm tra. Vì vậy, phương pháp này có thể làm giảm đáng kể kích thước của các bộ dữ liệu được tìm kiếm, cùng với sự "tăng trưởng" của mẫu được kiểm tra. Bạn sẽ xem làm thế nào nó hoạt động trong Ví dụ 6.5.
Ví dụ 6.5 FP-tăng trưởng (tìm tập phổ biến mà không cần thế hệ ứng viên). Chúng tôi xem xét lại việc khai thác cơ sở dữ liệu giao dịch, D, trong Bảng 6.1 trong Ví dụ 6.3 bằng cách sử dụng phương pháp tiếp cận phát triển mô hình thường xuyên.
Việc quét đầu tiên của cơ sở dữ liệu tương tự như Apriori, mà xuất phát tập các mặt hàng thường xuyên (1-tập phổ biến) và hỗ trợ của họ đếm (tần số). Hãy tính hỗ trợ tối thiểu là 2. Tập hợp các mặt hàng thường xuyên được sắp xếp theo thứ tự giảm dần số lượng hỗ trợ. Điều này thiết lập kết quả hoặc danh sách được ký hiệu là L. Vì vậy, chúng ta có L = {{I2: 7}, {I1: 6}, {I3: 6},
{I4: 2}, {I5: 2}}.
Một FP sau đó -cây được xây dựng như sau. Đầu tiên, tạo thư mục gốc của cây, dán nhãn
với "null". Quét cơ sở dữ liệu D một lần thứ hai. Các mặt hàng trong mỗi giao dịch được xử lý theo thứ tự L (tức là, sắp xếp theo giảm dần số lượng hỗ trợ), và một chi nhánh được tạo ra cho mỗi giao dịch. Ví dụ, quá trình quét các giao dịch đầu tiên, "T100: I1, I2, I5," trong đó có ba mục (I2, I1, I5 trong L theo thứ tự), dẫn đến việc xây dựng các chi nhánh đầu tiên của cây với ba nút, (I2: 1), (I1: 1), và (I5: 1), nơi I2 được liên kết như một đứa trẻ vào thư mục gốc, I1 được liên kết với I2, và I5 được liên kết với I1. Các giao dịch thứ hai, T200,
chứa các mục I2 và I4 trong L tự, mà sẽ dẫn đến một chi nhánh nơi I2 được liên kết vào thư mục gốc và I4 được liên kết với I2. Tuy nhiên, chi nhánh này sẽ chia sẻ một tiền tố phổ biến, I2, với đường dẫn hiện tại cho T100. Do đó, chúng tôi thay vì tăng số lần của nút I2 bằng 1, và tạo ra một nút mới, (I4: 1), được liên kết như một đứa trẻ (I2: 2). Nói chung,
đang được dịch, vui lòng đợi..