Khai thác tập phổ biến hơn bất định Databases
Philip S. Yu § Yongxin Tong † Lei Chen Cheng Yurong † ‡
† Hồng Kông Đại học Khoa học & Công nghệ, Hồng Kông, Trung Quốc
Đại học Northeastern ‡, Trung Quốc
§University Illinois tại Chicago, USA
† {yxtong, leichen}@cse.ust.hk, ‡cyrneu@gmail.com, §psyu@cs.uic.edu
TÓM TẮT
Trong những năm gần đây, do sự ứng dụng rộng rãi của các dữ liệu không chắc chắn,
khai thác tập phổ biến trên cơ sở dữ liệu không chắc chắn đã thu hút
nhiều sự chú ý. Trong cơ sở dữ liệu không chắc chắn, sự hỗ trợ
của một tập phổ biến là một biến ngẫu nhiên thay vì một sự xuất hiện cố định
đếm của tập phổ biến này. Vì vậy, không giống như các tương ứng
trong cơ sở dữ liệu xác định vấn đề nơi thường xuyên
tập phổ biến có một định nghĩa duy nhất, các tập phổ biến dưới
các môi trường không chắc chắn có hai định nghĩa khác nhau cho đến nay.
Các định nghĩa đầu tiên, gọi là hỗ trợ dựa trên dự kiến
tập phổ biến, sử dụng kỳ vọng của hỗ trợ
của một tập phổ biến để đo lường xem liệu tập phổ biến này là thường xuyên.
Các định nghĩa thứ hai, gọi là xác suất thường xuyên
tập phổ biến, sử dụng xác suất của sự hỗ trợ của một tập phổ biến
để đo tần số của nó. Như vậy, công việc hiện tại về khai thác
tập phổ biến trên cơ sở dữ liệu không chắc chắn được chia thành
hai nhóm khác nhau và không có nghiên cứu được tiến hành một cách toàn diện để
so sánh hai định nghĩa khác nhau. Ngoài ra,
vì không có nền tảng thực nghiệm thống nhất tồn tại, giải pháp hiện nay
cho các định nghĩa tương tự thậm chí tạo ra không phù hợp
kết quả. Trong bài báo này, chúng ta trước hết nhằm mục đích để làm rõ mối quan hệ
giữa hai định nghĩa khác nhau. Thông qua mở rộng
thí nghiệm, chúng tôi xác minh rằng hai định nghĩa có một
kết nối chặt chẽ và thống nhất được với nhau khi kích thước của
dữ liệu là đủ lớn. Thứ hai, chúng tôi cung cấp cơ sở triển khai thực hiện
trong tám đại diện các thuật toán hiện hành và
kiểm tra màn trình diễn của họ với các biện pháp đồng bằng. Cuối cùng,
theo các thử nghiệm công bằng hơn nhiều chuẩn khác nhau
tập hợp dữ liệu, chúng tôi làm rõ một số kết luận không phù hợp hiện tại
và thảo luận về một số kết quả nghiên cứu mới.
1. GIỚI THIỆU
Gần đây, với nhiều ứng dụng mới, chẳng hạn như mạng cảm biến
giám sát [23, 24, 26], di chuyển đối tượng tìm kiếm [13, 14,
15] và protein-protein tương tác (PPI) phân tích mạng
[29], khai thác dữ liệu không chắc chắn đã trở thành một chủ đề nóng trong dữ liệu
cộng đồng khai thác mỏ [3, 4, 5, 6, 20, 21]. Kể từ khi vấn đề
khai thác tập phổ biến là cơ bản trong lĩnh vực khai thác dữ liệu,
khai thác tập phổ biến trên cơ sở dữ liệu không chắc chắn cũng đã
thu hút được nhiều sự chú ý [4, 9, 10, 11, 17, 18, 22, 28, 30, 31,
33]. Ví dụ, với sự phổ biến của cảm biến không dây
mạng, hệ thống mạng cảm biến không dây thu rất lớn
số lượng dữ liệu. Tuy nhiên, do sự không chắc chắn vốn có
của các cảm biến, các dữ liệu thu được thường không chính xác. Đối với
các dữ liệu không chắc chắn xác suất đã tính, làm thế nào chúng ta có thể khám phá
các mẫu thường xuyên (tập phổ biến) để người sử dụng có thể hiểu được
các quy tắc ẩn trong dữ liệu? Xác suất cố hữu
tài sản của dữ liệu được bỏ qua nếu chúng ta chỉ cần áp dụng truyền thống
phương pháp khai thác tập phổ biến trong dữ liệu xác định
dữ liệu không chắc chắn. Vì vậy, nó là cần thiết để thiết kế chuyên biệt
cho các thuật toán khai thác tập phổ biến hơn không chắc chắn
cơ sở dữ liệu.
Trước khi tìm tập phổ biến trên cơ sở dữ liệu không chắc chắn,
các định nghĩa của các tập phổ biến là thiết yếu nhất
vấn đề. Trong dữ liệu xác định, rõ ràng là một tập phổ biến là thường xuyên
nếu và chỉ nếu hỗ trợ (tần số) của tập phổ biến như vậy
không phải là nhỏ hơn so với một sự hỗ trợ tối thiểu quy định, min sup
[7, 8, 19, 32]. Tuy nhiên, khác với trường hợp xác định,
định nghĩa của một tập phổ biến trên các dữ liệu không chắc chắn có
hai cách giải thích ngữ nghĩa khác nhau: dự kiến sẽ hỗ trợ dựa trên
tập phổ biến [4, 18] và xác suất tập phổ biến [9].
Cả hai đều xem xét sự hỗ trợ của một itemset là rời rạc
biến ngẫu nhiên. Tuy nhiên, cả hai định nghĩa là
khác nhau về cách sử dụng các biến ngẫu nhiên để xác định thường xuyên
tập phổ biến. Trong định nghĩa của sự hỗ trợ dựa trên dự kiến
tập phổ biến, những kỳ vọng về sự hỗ trợ của một tập phổ biến
được định nghĩa là đo lường, được gọi như dự kiến
hỗ trợ của tập phổ biến này. Trong định nghĩa này [4, 17, 18, 22], một
itemset là thường xuyên nếu và chỉ nếu sự hỗ trợ dự kiến như
itemset là không ít hơn mức tối thiểu quy định dự kiến sẽ sup-
ngưỡng cổng, min esup. Trong định nghĩa của xác suất
tập phổ biến [9, 28, 31], xác suất một itemset
xuất hiện ít nhất là sự hỗ trợ tối thiểu (min sup) lần được
định nghĩa là đo lường, được gọi là xác suất thường xuyên
của một tập phổ biến, và một tập phổ biến là thường xuyên nếu và chỉ nếu
xác suất thường xuyên của tập phổ biến như vậy là lớn hơn so với một định
ngưỡng xác suất.
Các định nghĩa về dự kiến hỗ trợ dựa trên tập phổ biến
sử dụng kỳ vọng để đo lường sự không chắc chắn, đó là một
phần mở rộng đơn giản của định nghĩa của tập phổ biến trong
tất định dữ liệu. Các định nghĩa của xác suất thường xuyên
tập phổ biến bao gồm các phân bố xác suất đầy đủ của các
hỗ trợ của một tập phổ biến. Mặc dù kỳ vọng được biết đến
như là một số liệu thống kê quan trọng, nó không thể cho thấy xác suất hoàn thành
phân phối. Hầu hết các nghiên cứu trước cho rằng
hai định nghĩa này phải được nghiên cứu tương ứng [9, 28, 31].
1650
Giấy phép làm bản sao kỹ thuật số hoặc khó khăn của tất cả hoặc một phần của tác phẩm này với
mục đích cá nhân hoặc lớp học được cấp mà không cần lệ phí cung cấp bản sao được mà
không làm hoặc phân phối để thu lợi nhuận hoặc lợi thế thương mại và các bản sao
chịu thông báo này và trích dẫn đầy đủ trên trang đầu tiên. Để sao chép khác, để
tái xuất, đăng bài trên các máy chủ hoặc để phân phối lại các danh sách, yêu cầu cụ thể trước khi
cho phép và / hoặc lệ phí. Bài viết từ khối lượng này đã được mời để trình bày
kết quả của mình tại Hội nghị quốc tế lần thứ 38 về căn cứ dữ liệu rất lớn,
ngày 27 tháng 8 ngày 31
năm 2012, Istanbul, Thổ Nhĩ Kỳ.
Proceedings của VLDB Endowment, Vol. 5, số 11
Copyright 2012 VLDB Endowment 21.508.097 /
12/07 ... $ 10,00.
Tuy nhiên, chúng ta thấy rằng cả hai định nghĩa có một thay
kết nối chặt chẽ. Cả hai định nghĩa xem xét hỗ trợ của một
tập phổ biến như là một biến ngẫu nhiên sau Poisson nhị thức
phân phối [2], đó là sự hỗ trợ dự kiến của một tập phổ biến
bằng với kỳ vọng của biến ngẫu nhiên. Do đó,
tính toán xác suất thường xuyên của một tập phổ biến là
tương đương để tính toán các hàm phân phối tích lũy
của biến ngẫu nhiên này. Ngoài ra, toán học hiện
lý thuyết cho thấy rằng phân phối Poisson và Bình thường
phân phối có thể xấp xỉ Poisson phân phối nhị thức
dưới sự tự tin cao [31, 10]. Dựa trên Lyapunov Trung
Limit Theory [25], sự phân bố bình thường hội tụ để
phân phối Poisson nhị thức với xác suất cao. Hơn nữa,
sự phân bố nhị thức Poisson có một tài sản âm thanh:
các tính toán của các kỳ vọng và phương sai là
như nhau về độ phức tạp tính toán. Do đó,
xác suất thường xuyên của một tập phổ biến có thể được tính trực tiếp
miễn là chúng ta biết giá trị kỳ vọng và phương sai
của sự hỗ trợ của tập phổ biến như vậy khi số lượng giao dịch
trong cơ sở dữ liệu không chắc chắn là đủ lớn [10] (do
yêu cầu của các Lyapunov Trung Limit Thuyết).
Nói cách khác, định nghĩa thứ hai là giống với
định nghĩa đầu tiên nếu định nghĩa đầu tiên cũng xem xét phương sai
của sự hỗ trợ cùng một lúc. Hơn nữa, một
kết quả thú vị là các thuật toán hiện có để khai thác dự kiến sẽ
hỗ trợ dựa trên tập phổ biến được áp dụng cho các
vấn đề khai thác xác suất tập phổ biến miễn là
họ cũng tính phương sai của sự hỗ trợ của mỗi tập phổ biến
khi họ tính toán từng hỗ trợ dự kiến. Như vậy,
hiệu quả khai thác tập phổ biến xác suất có thể được
cải thiện rất nhiều do sự tồn tại của nhiều hiệu quả dự kiến
hỗ trợ các thuật toán khai thác dựa trên tập phổ biến.
Trong bài báo này, chúng tôi xác minh kết luận thông qua mở rộng
so sánh thực nghiệm.
Bên cạnh nhìn về mối quan hệ giữa ẩn
hai định nghĩa trên, nghiên cứu hiện có về cùng một định nghĩa
cũng cho thấy kết luận trái ngược nhau. Ví dụ,
trong nghiên cứu khai thác dự kiến sẽ hỗ trợ dựa trên thường xuyên
tập phổ biến, [22] cho thấy thuật toán UFP-tăng trưởng nhanh hơn so với lúc nào
thuật toán UApriori đối với các hoạt động với
thời gian. Tuy nhiên, [4] báo cáo rằng thuật toán UFP-tăng trưởng là
luôn luôn chậm hơn so với thuật toán UApriori. Những trái
kết luận làm cho các nhà nghiên cứu sau đó nhầm lẫn về
kết quả là chính xác.
Việc thiếu cơ sở triển khai thực hiện thống nhất là một
trong những yếu tố gây ra các kết luận không phù hợp. Do đó,
kết quả thử nghiệm khác nhau bắt nguồn từ sự khác biệt
trong số rất nhiều các kỹ năng thực hiện, làm mờ những gì đang có
sự đóng góp của các thuật toán. Ví dụ, việc thực hiện
cho các thuật toán UFP tăng trưởng sử dụng các loại "phao" để
lưu trữ từng xác suất. Trong khi thực hiện cho UHMine
thuật toán thông qua các "loại kép". Sự khác biệt
về chi phí bộ nhớ của họ không thể phản ánh hiệu quả của
hai thuật toán một cách khách quan. Vì vậy, việc triển khai cơ sở thống nhất
có thể loại bỏ nhiễu từ việc thực hiện
chi tiết và báo cáo đóng góp thực sự của mỗi thuật toán.
Ngoại trừ việc triển khai cơ sở thống nhất, việc lựa chọn các
biện pháp khách quan và khoa học cũng là một trong những quan trọng nhất
trong các yếu tố so sánh công bằng thực nghiệm. Bởi vì
các thuật toán khai thác dữ liệu không chắc chắn cần phải xử lý một lượng lớn
số lượng dữ liệu, thời gian chạy, chi phí bộ nhớ và khả năng mở rộng
là biện pháp cơ bản khi tính đúng đắn của thuật toán
được đảm bảo. Ngoài ra, để đánh đổi tính chính xác cho hiệu quả,
khai thác tập phổ biến xấp xỉ xác suất
các thuật toán cũng được đề xuất [10, 31]. Để so sánh mối quan hệ
giữa hai định nghĩa tập phổ biến, chúng tôi
sử dụng chính xác và thu hồi các biện pháp để đánh giá xấp xỉ
hiệu quả. Hơn nữa, do không phù hợp trên
các kết luận có thể được gây ra bởi sự phụ thuộc vào dữ liệu này,
trong tác phẩm này, chúng tôi chọn sáu bộ dữ liệu khác nhau, ba dày đặc
những người thân và ba người thưa thớt với phân bố xác suất khác nhau
(ví dụ như phân phối bình thường Vs. Z
đang được dịch, vui lòng đợi..
