Định nghĩa 2. (Dự kiến-Hỗ trợ dựa trên tập phổ biến) Cho một cơ sở dữ liệu giao dịch không chắc chắn U DB mà tính cả giao dịch cludes N, và tỷ lệ hỗ trợ tối thiểu dự kiến, min esup, một itemset X là một hỗ trợ dựa trên tập phổ biến dự kiến thường xuyên khi và chỉ nếu esup (X) ≥ N × min esup Ví dụ 1. (dự kiến hỗ trợ dựa trên tập phổ biến) Cho một cơ sở dữ liệu không chắc chắn trong Bảng 1 và tối thiểu Thí hỗ trợ ngờ, min esup = 0,5, có được chỉ có hai dự kiến hỗ trợ dựa trên thường xuyên tập phổ biến: A (2,1) và C (2,6), nơi số lượng trong mỗi khung là sự hỗ trợ dự kiến tương ứng itemset. Định nghĩa 3. (Xác suất thường xuyên) Cho một cơ sở dữ liệu giao dịch không chắc chắn U DB gồm N giao dịch, tỷ lệ hỗ trợ tối thiểu min sup, và một itemset X, xác suất thường xuyên X 's, ký hiệu là P r (X), được thể hiện như sau: P r (X) = P r {sup (X) ≥ N × min sup} Định nghĩa 4. (xác suất tập phổ biến) Cho một cơ sở dữ liệu giao dịch không chắc chắn U DB gồm N xuyên hành động, một tỷ lệ hỗ trợ tối thiểu min sup, và một tic probabilis- ngưỡng thường xuyên pf t, một itemset X là một tập phổ biến xác suất nếu xác suất thường xuyên X 's lớn hơn ngưỡng xác suất thường xuyên, cụ thể là, P r (X) = P r {sup (X) ≥ N × min} sup> pf t Ví dụ 2. (xác suất tập phổ biến) Cho một cơ sở dữ liệu nhất định un- trong Bảng 2, min sup = 0,5, và pf t = 0,7, phân phối xác suất của sự hỗ trợ của A được thể hiện trong Bảng 2. Vì vậy, xác suất thường xuyên của A là: P r (X) = P r {sup (A) ≥ 4 × 0,5} = P r {sup (A) ≥ 2} = P r {sup (A) = 2} + P r {sup (A) = 3} = 0,4 + 0,32> 0,7 = pf t. Như vậy, {A} là một tập phổ biến xác suất. 3. ALGORITHMS HÀNH thường xuyên MINING SET item- Chúng tôi phân loại các thuật toán tám đại diện thành ba nhóm. Nhóm thứ nhất là sự hỗ trợ dựa trên các thuật toán quent độ thường xuyên dự kiến. Các thuật toán này nhằm mục đích để tìm tất cả các hỗ trợ dựa trên tập phổ biến dự kiến thường xuyên. Đối với mỗi tập phổ biến, các thuật toán này chỉ xem xét hỗ trợ dự kiến để đo tần số của nó. Sự phức tạp của máy tính hỗ trợ dự kiến của một tập phổ biến là O (N), trong đó N là số lượng giao dịch. Nhóm thứ hai là các thuật toán thường xuyên xác suất chính xác. Những thuật toán phát hiện ra tất cả các tập phổ biến bilistic xác suất và báo cáo chính xác trách xác suất thường xuyên cho mỗi tập phổ biến. Do sự phức tạp của tính toán xác suất thường xuyên chính xác thay vì kỳ vọng đơn giản, các thuật toán cần phải chi tiêu ít nhất là O (N logN) chi phí tation compu- cho mỗi tập phổ biến. Hơn nữa, để tránh xử lý dư thừa, cắt tỉa Chernoff ràng buộc dựa trên là một cách để giảm thời gian chạy của nhóm này algorithm- s. Nhóm thứ ba là các thuật toán thường xuyên xác suất gần đúng. Do những đặc tính âm thanh của sự phân bố Poisson nomial tổ chức song phương, nhóm này các thuật toán có thể được xác suất thường xuyên gần đúng với chất lượng cao on-ly mua lại giây phút đầu tiên (kỳ vọng) và thời điểm thứ hai (phương sai). Vì vậy, loại thứ ba của các thuật toán có O (N) chi phí tính toán và trả lại thông tin xác suất thành công khi cơ sở dữ liệu không chắc chắn là đủ lớn. Tóm lại, các loại thứ ba của các thuật toán thực sự xây dựng một cây cầu giữa hai định nghĩa khác nhau của tập phổ biến trên cơ sở dữ liệu không chắc chắn. 3.1 Dự kiến hỗ trợ dựa trên thường xuyên rithms Algo- Trong tiểu mục này, chúng tôi tóm tắt ba các người đại represen- nhất dự kiến sẽ hỗ trợ dựa trên thường xuyên khai thác tập phổ biến algo- rithms: U Apriori [17, 18], UFP - tăng trưởng [22], UH - M ine [4]. Các thuật toán đầu tiên được dựa trên khung tạo-và-kiểm tra sử dụng các chiến lược tìm kiếm hơi thở đầu tiên. Hai thuật toán khác được dựa trên khung divide-and-conquer trong đó sử dụng các chiến lược tìm kiếm theo chiều sâu đầu tiên. Mặc dù thuật toán Apriori là chậm hơn so với hai gorithms al- khác trong cơ sở dữ liệu xác định, UApriori đó là phiên bản không chắc chắn của Apriori, thực sự thực hiện khá tốt trong ba thuật toán và thường là một trong những nhanh nhất trong bộ dữ liệu không chắc chắn dày đặc trên cơ sở kết quả thực nghiệm của chúng tôi - s trong phần 4. Chúng tôi tiếp tục giải thích ba thuật toán trong các phần phụ và Phần 4 sau đây. 3.1.1 UApriori Dự kiến đầu tiên hỗ trợ dựa trên thuật toán khai thác tập phổ biến đã được đề xuất bởi Chui et al. vào năm 2007 [18]. Thuật toán này mở rộng các thuật toán Apriori nổi tiếng [17, 18] đối với môi trường không chắc chắn và sử dụng khuôn khổ thử nghiệm tạo ra và đường dẫn để tìm tất cả các hỗ trợ dựa trên tập phổ biến dự kiến thường xuyên. Chúng tôi thường giới thiệu thuật toán UApriori như sau. Các thuật toán đầu tiên tìm thấy tất cả các dự đoán dựa Support mục thường xuyên, trước tiên. Sau đó, nó liên tục tham gia tất cả các dự kiến hỗ trợ dựa trên thường xuyên i-tập phổ biến để sản xuất i + 1 ứng viên itemset và kiểm tra i + 1-itemset ứng viên để có được dự kiến hỗ trợ dựa trên thường xuyên i + 1-tập phổ biến. Cuối cùng, nó kết thúc khi không có dự kiến hỗ trợ dựa trên i thường xuyên + 1-tập phổ biến được tạo ra. May mắn thay, các tài sản đóng cửa giảm nổi tiếng [8] vẫn hoạt động trong cơ sở dữ liệu không chắc chắn. Vì vậy, cắt tỉa Apriori truyền thống có thể được sử dụng khi chúng ta kiểm tra xem một bộ item- là một hỗ trợ dựa trên tập phổ biến dự kiến thường xuyên. Nói cách khác, tất cả supersets của tập phổ biến này không được dự kiến sẽ hỗ trợ dựa trên tập phổ biến. Ngoài ra, một số phương pháp cắt tỉa tinh thần decre- [17, 18] đã được đề xuất để tiếp tục nâng cao hiệu quả. Những phương pháp này chủ yếu nhằm mục đích để tìm trên ràng buộc của sự hỗ trợ dự kiến của một tập phổ biến càng sớm càng tốt. Một khi các ràng buộc trên là thấp hơn so với sự hỗ trợ tối thiểu dự kiến, cắt tỉa Apriori truyền thống có thể được sử dụng. Tuy nhiên, các phương pháp cắt tỉa decremental de- pend vào cấu trúc của bộ dữ liệu, do đó, các phương pháp cắt tỉa quan trọng nhất trong UApriori vẫn là cắt tỉa Apriori truyền thống.
đang được dịch, vui lòng đợi..