Khai thác tập phổ biến từ không chắc chắn liệu
Chun-Kit Chui1, Ben Kao1, và Edward Hung2
cục 1 Khoa học máy tính, Đại học Hồng Kông,
Pokfulam, Hồng Kông
{ckchui, kao} @ cs.hku.hk
2 khoa tin học, Hồng Đại học Bách khoa Kông,
Kowloon, Hồng Kông
csehung@comp.polyu.edu.hk
Tóm tắt. Chúng tôi nghiên cứu các vấn đề khai thác tập phổ biến từ chắc chắn
dữ liệu trong một khuôn khổ xác suất. Chúng tôi xem xét các giao dịch
mà các mặt hàng có liên quan đến xác suất tồn tại và đưa ra một hình thức
định nghĩa của mô hình thường xuyên dưới như một mô hình dữ liệu không chắc chắn.
Chúng tôi thấy rằng các thuật toán truyền thống khai thác tập phổ biến là
một trong hai không thể áp dụng hoặc không hiệu quả tính toán theo một mô hình như vậy.
Một khung dữ liệu là cắt tỉa đề xuất để nâng cao hiệu quả khai thác.
Thông qua thí nghiệm rộng rãi, chúng ta thấy rằng các dữ liệu kỹ thuật cắt tỉa
có thể đạt được tiết kiệm đáng kể chi phí cả CPU và I / O chi phí.
1 Giới thiệu
phân tích Hiệp hội là một trong những mô hình khai thác dữ liệu quan trọng nhất. Như một
ví dụ, trong phân tích thị trường giỏ, một bộ dữ liệu bao gồm một số các bộ dữ liệu,
mỗi dòng chứa các mặt hàng mà khách hàng đã mua trong một giao dịch. Các
số liệu được phân tích để phát hiện ra các hiệp hội giữa các hạng mục khác nhau. Một quan trọng
bước trong quá trình khai thác khoáng sản là khai thác tập phổ biến, hay tập hợp các mục
đó cùng xảy ra trong một phần chủ yếu của giao dịch. Bên cạnh đó thị trường giỏ
phân tích, khai thác tập phổ biến cũng là một thành phần cốt lõi trong các biến thể khác
của phân tích liên hệ, như hiệp hội quy tắc khai thác [1] và tuần tự mô hình
khai thác khoáng sản [2].
Tất cả các nghiên cứu trước đây về phân tích kết hợp giả định một mô hình dữ liệu mà
chụp giao dịch không nghi ngờ sự thật về các mặt hàng được chứa trong mỗi
giao dịch. Trong nhiều ứng dụng, tuy nhiên, sự tồn tại của một mục trong một giao dịch
là tốt nhất bị bắt bởi một thước đo khả năng hoặc một xác suất. Như một ví dụ,
một bộ dữ liệu y tế có thể chứa một bảng hồ sơ bệnh án (tuple), mỗi trong số đó
có chứa một tập hợp các triệu chứng và / hoặc các bệnh mà bệnh nhân bị (bài). Áp dụng
phân tích sự liên kết trên một tập dữ liệu đó cho phép chúng tôi để khám phá tiềm năng bất kỳ
mối tương quan giữa các triệu chứng và bệnh tật. Trong nhiều trường hợp, triệu chứng, được
quan sát chủ quan, tốt nhất sẽ được đại diện bởi xác suất mà chỉ
nghiên cứu này được hỗ trợ bởi Hồng Kông Hội đồng học bổng nghiên cứu Grant HKU
7134 / 06E.
Z.-H. Zhou, H. Li, và Q. Yang (Eds.):.. PAKDD 2007, LNAI 4426, pp 47-58, 2007
? c Springer-Verlag Berlin Heidelberg 2007
48 C.-K. Chui, B. Kao, và E. Hùng
Bảng 1. Một bộ dữ liệu chẩn đoán
bệnh nhân ID Depression Eating Disorder
1 90% 80%
2 40% 70%
hiện diện của họ trong bộ dữ liệu của bệnh nhân. Bảng 1 cho thấy một ví dụ bộ dữ liệu bệnh nhân.
Một giá trị xác suất trong một bộ dữ liệu như vậy có thể thu được bằng cách đánh giá cá nhân
được thực hiện bởi một bác sĩ, hoặc nó có thể được bắt nguồn dựa trên dữ liệu lịch sử
, thống kê. (Ví dụ, một bệnh nhân cho thấy phản ứng tích cực để thử nghiệm A có
một xác suất 70% bị bệnh B.) Một ví dụ khác không chắc chắn
là bộ dữ liệu các ứng dụng nhận dạng mẫu. Với một hình ảnh vệ tinh, xử lý hình ảnh
kỹ thuật có thể được áp dụng để trích xuất các tính năng mà chỉ ra sự hiện diện
hay vắng mặt của các đối tượng mục tiêu nào đó (chẳng hạn như lô cốt). Do hạn chế tiếng ồn và
độ phân giải, sự hiện diện của một tính năng trong một vùng không gian là thường không chắc chắn và
thể hiện như một xác suất [3]. Ở đây, chúng ta có thể mô hình một khu vực không gian như một đối tượng,
và các tính năng (có xác suất khác không của hiện diện trong một khu vực)
như các mặt hàng của đối tượng đó. Các bộ dữ liệu do đó có thể được coi là một bộ sưu tập các
bộ / giao dịch, mỗi dòng chứa một số mặt hàng (đặc điểm) có liên quan
với các xác suất của việc hiện tại. Áp dụng phân tích sự liên kết trên như
một bộ dữ liệu cho phép xác định các tính năng liên quan chặt chẽ. Kiến thức như vậy là rất
hữu ích trong mô hình phân loại [4] và phân tích kết cấu hình ảnh [5].
Trong bài báo này, chúng tôi xem xét các bộ dữ liệu là tập hợp các bản ghi giao dịch.
Mỗi hồ sơ có chứa một tập hợp các mặt hàng có liên quan đến xác suất tồn tại.
Như chúng tôi đã đề cập , một bước cốt lõi trong nhiều kỹ thuật phân tích liên kết
là việc khai thác tập phổ biến. Một itemset được coi là thường xuyên nếu nó xuất hiện
trong một phần lớn đủ của các bộ dữ liệu. Các tần số xảy ra thường được
biểu diễn dưới dạng một số hỗ trợ. Đối với các bộ dữ liệu chứa các mặt hàng không chắc chắn,
tuy nhiên, định nghĩa về hỗ trợ cần được xác định lại. Như chúng ta sẽ thảo luận sau đó,
do tính chất xác suất của các bộ dữ liệu, tần số xuất hiện của một
tập phổ biến nên được chụp bởi một hỗ trợ dự kiến thay vì một sự hỗ trợ truyền thống
đếm. Chúng tôi sẽ giải thích thế giới giải thích có thể không chắc chắn của một
bộ dữ liệu [6] và chúng tôi sẽ thảo luận về cách thức hỗ trợ dự kiến có thể được tính toán bởi một
thay đổi đơn giản của thuật toán Apriori nổi tiếng [1].
Vì sự tồn tại của một mục trong một giao dịch được chỉ định bởi một xác suất,
một lợi thế của mô hình dữ liệu không chắc chắn tồn tại là nó cho phép thêm thông tin
để được chụp bởi các bộ dữ liệu. Xem xét lại các ví dụ bệnh nhân
bộ dữ liệu. Nếu chúng ta áp dụng một mô hình dữ liệu nhị phân, sau đó mỗi triệu chứng / bệnh có thể hoặc là
có mặt (1) hoặc không có (0) trong một hồ sơ bệnh nhân. Theo mô hình nhị phân, dữ liệu
phân tích sẽ bị buộc phải thiết lập một giá trị ngưỡng cho mỗi triệu chứng / bệnh để quantize
xác suất thành hoặc là 1 hoặc 0. Nói cách khác, thông tin về những người
(nhẹ) giá trị thấp sẽ bị loại bỏ. Các mô hình dữ liệu không chắc chắn, tuy nhiên, cho phép
các thông tin đó được giữ lại và có sẵn để phân tích. Những bất lợi của
giữ lại những thông tin đó là kích thước của các bộ dữ liệu sẽ lớn hơn
Khai thác tập phổ biến từ không chắc chắn liệu 49
hơn theo mô hình nhị phân lượng tử hóa. Điều này đặc biệt đúng nếu nhất
của các xác suất tồn tại là rất nhỏ. Do đó, các thuật toán khai thác mỏ
sẽ chạy chậm hơn rất nhiều trên các tập dữ liệu lớn như vậy. Trong bài báo này chúng tôi đề xuất một hiệu quả
kỹ thuật cho khai thác bộ dữ liệu không chắc chắn tồn tại, trong đó khai thác các thống kê
thuộc tính của các mặt hàng có giá trị thấp. Qua thực nghiệm, chúng tôi sẽ cho thấy rằng các
kỹ thuật được đề xuất là rất hiệu quả cả về chi phí CPU và tôi chi phí / O.
Phần còn lại của bài viết này được tổ chức như sau. Phần 2 mô tả có thể
giải thích thế giới của dữ liệu không chắc chắn tồn tại và định nghĩa hỗ trợ dự kiến
biện pháp. Phần 3 thảo luận về một thay đổi đơn giản của thuật toán Apriori
mỏ dữ liệu chắc chắn và giải thích lý do tại sao một điều chỉnh đó không dẫn đến
một thuật toán hiệu quả. Phần 4 trình bày một kỹ thuật cắt tỉa dữ liệu để nâng cao
hiệu quả khai thác. Phần 5 trình bày một số kết quả thực nghiệm và thảo luận về
một số quan sát. Chúng tôi kết luận nghiên cứu tại mục 6.
Vấn đề 2 Định nghĩa
Trong mô hình dữ liệu của chúng tôi, một tập dữ liệu D chắc chắn bao gồm d giao dịch t1,. . . , Td.
Một ti giao dịch có chứa một số mặt hàng. Mỗi mục x trong ti được gắn liền
với một phi xác suất bằng không PTI (x), trong đó cho biết khả năng item x
có mặt trong ti giao dịch. Có như vậy, hai khả năng của thế giới. Trong
một trường hợp, mục x có mặt trong ti giao dịch; trong trường hợp khác, mục x không phải là
trong ti. Hãy để chúng tôi gọi hai khả năng này hai thế giới có thể, W1 và W2,
respectively.We không biết thế giới là thế giới thực nhưng chúng tôi biết, từ
các tập dữ liệu, xác suất của mỗi thế giới là thế giới thực sự. Đặc biệt, nếu
chúng ta để cho P (Wi) là xác suất mà thế giới Wi là thế giới thật, sau đó chúng ta
có P (W1) = PTI (x) và P (W2) = 1-PTI (x). Chúng tôi có thể mở rộng ý tưởng này để bao gồm
các trường hợp trong đó ti giao dịch có chứa các mặt hàng khác. Ví dụ, chúng ta hãy item y là
một mục trong ti với xác suất PTI (y). Nếu quan sát của item x và y item
là độc lập done1, sau đó có bốn thế giới có thể. Xác suất của
thế giới, trong đó có cả mặt hàng ti x và y, ví dụ, là PTI (x) · PTI (y).
Chúng tôi có thể tiếp tục mở rộng các ý tưởng để trang trải các bộ dữ liệu có chứa nhiều hơn một
giao dịch. Hình 1 minh họa 16 thế giới có thể có nguồn gốc từ các bệnh nhân
ghi hiển thị trong Bảng 1. Trong khai thác tập phổ biến truyền thống, sự hỗ trợ
của một số itemset X được định nghĩa là số lượng giao dịch có chứa
X. Đối với một bộ dữ liệu chắc chắn, một giá trị hỗ trợ như vậy là không xác định vì chúng ta không
biết trong thế giới thực một giao dịch có chứa X một cách chắc chắn. Chúng tôi có thể,
tuy nhiên, xác định sự hỗ trợ của X đối với bất kỳ trên thế giới có thể được đưa ra với.
Chúng ta hãy xem xét thế giới thể hiện trong hình 1, sự hỗ trợ của tập phổ biến AB trong
thế giới W1 và W6 là 2 và 1, tương ứng. Nếu chúng ta có thể xác định xác suất
của mỗi thế giới có thể và sự hỗ trợ của một itemset X ở mỗi thế giới, chúng ta có thể
xác định sự hỗ trợ dự kiến của X.
Định nghĩa 1. Một itemset X là thường xuyên nếu và chỉ nếu hỗ trợ dự kiến của nó không
ít hơn ρs · d, nơi ρs là một ngưỡng hỗ trợ người dùng chỉ định.
1 Ví dụ, chúng ta có thể xem xét các triệu chứng khác nhau được chẩn đoán bằng cách độc lập
kiểm tra y tế.
50 C.-K. Chui, B. Kao, và E. Hưng
W1
AB
t1 ✔ ✔
✔ ✔ t2
W2
AB
t1 ✔ ✔
✔ ✘ t2
W3
AB
t1 ✔ ✔
t2 ✘ ✔
W4
AB
t1 ✔ ✘
t2 ✔ ✔
W5
AB
t1 ✘ ✔
✔ ✔ t2
W6
AB
t1 ✔ ✔
t2 ✘ ✘
W7
AB
t1 ✘ ✘
t2 ✔ ✔
W8
AB
t1 ✔ ✘
t2 ✔ ✘
W9
AB
t1 ✘ ✔
t2 ✘ ✔
W10
AB
t1 ✘ ✔
✔ ✘ t2
W11
AB
t1 ✔ ✘
t2 ✘ ✔
W12
AB
t1 ✘ ✘
t2 ✔ ✘
W13
AB
t1 ✘ ✘
t2 ✘ ✔
W14
AB
t1 ✘ ✔
t2 ✘ ✘
W15
AB
t1 ✔ ✘
t2 ✘ ✘
W16
AB
t1 ✘ ✘
t2 ✘ ✘
hình. 1. 16 Worlds có thể bắt nguồn từ bộ dữ liệu với 2 giao dịch và 2 mục
Cho một thế giới và Wi một itemset X, chúng ta hãy xác định P (Wi) là xác suất của
thế giới Pi và S (X, Wi) được tính hỗ trợ của X trong Wi thế giới. Hơn nữa, chúng tôi
sử dụng Ti, j để biểu thị tập hợp các mục mà giao dịch thứ j, tức là, tj, chứa trong
thế giới Wi. Nếu chúng ta giả định rằng xác suất tồn tại của các đối tượng trong các giao dịch được
xác định thông qua observations2 độc lập, sau đó P (Wi) và dự kiến
hỗ trợ Se (X) của X được cho bởi công thức sau:
P (Wi) =
d
?
k = 1
⎛
⎝
?
x∈Ti, j
Ptj (x) ·?
∈Ti y, j?
(1 - Ptj (y))
⎞
⎠
, và (1)
Se (X) =
| W |
?
i = 1
P (Wi) ×
đang được dịch, vui lòng đợi..
