hơn mà theo mô hình nhị phân quantized. Điều này đặc biệt đúng nếu hầu hếttrong các xác suất hiện sinh là rất nhỏ. Do đó, thuật toán khai thác mỏsẽ chạy chậm hơn rất nhiều trên các datasets lớn. Trong bài này, chúng tôi đề xuất một hiệu quảMáy móc khai thác mỏ hiện sinh không chắc chắn datasets, mà khai thác các thống kêthuộc tính của khoản mục có giá trị thấp. Thông qua thử nghiệm, chúng tôi sẽ thấy rằng cáckỹ thuật được đề xuất là rất hiệu quả về chi phí CPU và I/O chi phí.Phần còn lại của bài báo này được tổ chức như sau. Phần 2 mô tả có thểGiải thích thế giới hiện sinh dữ liệu không chắc chắn và xác định sự hỗ trợ dự kiếnbiện pháp. Phần 3 thảo luận về một sửa đổi đơn giản của các thuật toán Aprioriđể khai thác dữ liệu không chắc chắn và giải thích lý do tại sao như vậy một sửa đổi không dẫn đếnmột thuật toán hiệu quả. Phần 4 trình bày một kỹ thuật trang trí dữ liệu để cải thiệnkhai thác hiệu quả. Phần 5 trình bày một số kết quả thử nghiệm và thảo luận vềmột số quan sát. Chúng tôi kết luận nghiên cứu trong phần 6.2 vấn đề định nghĩaTrong mô hình dữ liệu của chúng tôi, một bộ dữ liệu không chắc chắn D bao gồm t1 d giao dịch,..., td.Ti giao dịch có chứa một số mặt hàng. Mỗi mục x trong ti được liên kếtvới một xác suất không Pti (x), mà chỉ ra khả năng rằng mục xlà hiện diện trong giao dịch ti. Có là như vậy, hai khả năng của thế giới. Ởmột trường hợp, mục x là hiện diện trong giao dịch ti; trong trường hợp khác, mục x là khôngở ti. Hãy để chúng tôi gọi các khả năng hai thế giới có thể hai, W1 và W2,tương ứng.Chúng tôi không biết thế giới đó là thế giới thực, nhưng chúng tôi biết, từbộ dữ liệu, xác suất của mỗi thế giới là thế giới thật sự. Trong cụ thể, keå caûchúng tôi cho P(Wi) là khả năng rằng thế giới Wi là thế giới thật sự, sau đó chúng tôicó P(W1) = Pti (x) và P(W2) = 1−Pti(x). Chúng tôi có thể mở rộng ý tưởng này để trang trảitrường hợp trong giao dịch mà ti có chứa các mặt hàng khác. Ví dụ, cho mục ymặt khác trong ti với xác suất Pti (y). Nếu các quan sát của sản phẩm x và mục ylà một cách độc lập done1, sau đó thế giới có thể bốn. Xác suất củathế giới trong ti mà chứa cả hai bài x và y, ví dụ, là Pti (x) ·PTI (y).Chúng tôi có thể tiếp tục mở rộng ý tưởng để trang trải datasets có chứa nhiều hơn mộtgiao dịch. Hình 1 minh họa 16 thế giới có thể bắt nguồn từ các bệnh nhânHồ sơ Hiển thị trong bảng 1. Trong truyền thống thường xuyên itemset khai thác, sự hỗ trợBá tước của một itemset X được định nghĩa là số lượng các giao dịch có chứaX. cho một bộ dữ liệu không chắc chắn, một giá trị hỗ trợ là không xác định kể từ khi chúng tôi làm khôngbiết trong thế giới thực cho dù một giao dịch có chứa X chắc chắn. Chúng tôi có thể,Tuy nhiên, xác định sự hỗ trợ của X đối với bất kỳ thế giới có thể nhất định.Hãy để chúng tôi xem xét thế giới Hiển thị trong hình 1, sự hỗ trợ của itemset AB trongthế giới W1 và W6 là 2 và 1, tương ứng. Nếu chúng tôi có thể xác định khả năngmỗi thế giới có thể và sự hỗ trợ của một itemset X trong mỗi thế giới, chúng tôi có thểxác định sự hỗ trợ dự kiến của X.Định nghĩa 1. Một itemset X là thường xuyên khi và chỉ khi dự kiến sẽ hỗ trợ khôngít hơn ρs · d, nơi ρs là một ngưỡng quy định người sử dụng hỗ trợ.
đang được dịch, vui lòng đợi..