hơn theo mô hình nhị phân lượng tử hóa. Điều này đặc biệt đúng nếu nhất
của các xác suất tồn tại là rất nhỏ. Do đó, các thuật toán khai thác mỏ
sẽ chạy chậm hơn rất nhiều trên các tập dữ liệu lớn như vậy. Trong bài báo này chúng tôi đề xuất một hiệu quả
kỹ thuật cho khai thác bộ dữ liệu không chắc chắn tồn tại, trong đó khai thác các thống kê
thuộc tính của các mặt hàng có giá trị thấp. Qua thực nghiệm, chúng tôi sẽ cho thấy rằng các
kỹ thuật được đề xuất là rất hiệu quả cả về chi phí CPU và tôi chi phí / O.
Phần còn lại của bài viết này được tổ chức như sau. Phần 2 mô tả có thể
giải thích thế giới của dữ liệu không chắc chắn tồn tại và định nghĩa hỗ trợ dự kiến
biện pháp. Phần 3 thảo luận về một thay đổi đơn giản của thuật toán Apriori
mỏ dữ liệu chắc chắn và giải thích lý do tại sao một điều chỉnh đó không dẫn đến
một thuật toán hiệu quả. Phần 4 trình bày một kỹ thuật cắt tỉa dữ liệu để nâng cao
hiệu quả khai thác. Phần 5 trình bày một số kết quả thực nghiệm và thảo luận về
một số quan sát. Chúng tôi kết luận nghiên cứu tại mục 6.
Vấn đề 2 Định nghĩa
Trong mô hình dữ liệu của chúng tôi, một tập dữ liệu D chắc chắn bao gồm d giao dịch t1,. . . , Td.
Một ti giao dịch có chứa một số mặt hàng. Mỗi mục x trong ti được gắn liền
với một phi xác suất bằng không PTI (x), trong đó cho biết khả năng item x
có mặt trong ti giao dịch. Có như vậy, hai khả năng của thế giới. Trong
một trường hợp, mục x có mặt trong ti giao dịch; trong trường hợp khác, mục x không phải là
trong ti. Hãy để chúng tôi gọi hai khả năng này hai thế giới có thể, W1 và W2,
respectively.We không biết thế giới là thế giới thực nhưng chúng tôi biết, từ
các tập dữ liệu, xác suất của mỗi thế giới là thế giới thực sự. Đặc biệt, nếu
chúng ta để cho P (Wi) là xác suất mà thế giới Wi là thế giới thật, sau đó chúng ta
có P (W1) = PTI (x) và P (W2) = 1-PTI (x). Chúng tôi có thể mở rộng ý tưởng này để bao gồm
các trường hợp trong đó ti giao dịch có chứa các mặt hàng khác. Ví dụ, chúng ta hãy item y là
một mục trong ti với xác suất PTI (y). Nếu quan sát của item x và y item
là độc lập done1, sau đó có bốn thế giới có thể. Xác suất của
thế giới, trong đó có cả mặt hàng ti x và y, ví dụ, là PTI (x) · PTI (y).
Chúng tôi có thể tiếp tục mở rộng các ý tưởng để trang trải các bộ dữ liệu có chứa nhiều hơn một
giao dịch. Hình 1 minh họa 16 thế giới có thể có nguồn gốc từ các bệnh nhân
ghi hiển thị trong Bảng 1. Trong khai thác tập phổ biến truyền thống, sự hỗ trợ
của một số itemset X được định nghĩa là số lượng giao dịch có chứa
X. Đối với một bộ dữ liệu chắc chắn, một giá trị hỗ trợ như vậy là không xác định vì chúng ta không
biết trong thế giới thực một giao dịch có chứa X một cách chắc chắn. Chúng tôi có thể,
tuy nhiên, xác định sự hỗ trợ của X đối với bất kỳ trên thế giới có thể được đưa ra với.
Chúng ta hãy xem xét thế giới thể hiện trong hình 1, sự hỗ trợ của tập phổ biến AB trong
thế giới W1 và W6 là 2 và 1, tương ứng. Nếu chúng ta có thể xác định xác suất
của mỗi thế giới có thể và sự hỗ trợ của một itemset X ở mỗi thế giới, chúng ta có thể
xác định sự hỗ trợ dự kiến của X.
Định nghĩa 1. Một itemset X là thường xuyên nếu và chỉ nếu hỗ trợ dự kiến của nó không
ít hơn ρs · d, nơi ρs là một ngưỡng hỗ trợ người dùng chỉ định.
đang được dịch, vui lòng đợi..