TÓM TẮT
Trong những năm gần đây, do sự ứng dụng rộng rãi của không chắc chắn liệu trên ta, khai thác tập phổ biến trên cơ sở dữ liệu không chắc chắn có tại- hút được nhiều sự chú ý. Trong cơ sở dữ liệu không chắc chắn, sự hỗ trợ của một tập phổ biến là một biến ngẫu nhiên thay vì một Řenče đếm cố định occur- của tập phổ biến này. Vì vậy, không giống như các vấn đề ing correspond- trong cơ sở dữ liệu xác định nơi các tập phổ biến có một định nghĩa duy nhất, các tập phổ biến trong các môi trường không chắc chắn có hai định nghĩa khác nhau cho đến nay. Các định nghĩa đầu tiên, gọi là hỗ trợ dựa trên dự kiến tập phổ biến, sử dụng kỳ vọng của sự hỗ trợ của một tập phổ biến để đo lường xem liệu tập phổ biến này là thường xuyên. Định nghĩa thứ hai, gọi là tập phổ biến theo xác suất, sử dụng xác suất của sự hỗ trợ của một tập phổ biến để đo tần số của nó. Như vậy, công việc hiện tại về khai thác tập phổ biến trên cơ sở dữ liệu không chắc chắn được chia thành hai nhóm khác nhau và không có nghiên cứu được tiến hành để diện hensively so sánh hai định nghĩa khác nhau. Ngoài ra, vì không có nền tảng thực nghiệm thống nhất tồn tại, lutions Xô hiện tại cho các định nghĩa tương tự thậm chí tạo ra kết quả không phù hợp. Trong bài báo này, chúng ta trước hết nhằm mục đích để làm rõ mối quan hệ giữa hai định nghĩa khác nhau. Thông qua thí nghiệm sive mở rộng cho, chúng tôi xác minh rằng hai định nghĩa có một kết nối chặt chẽ và thống nhất được với nhau khi kích thước của dữ liệu là đủ lớn. Thứ hai, chúng tôi cung cấp cơ sở thöïc hieän mentations tám đại diện các thuật toán hiện hành và kiểm tra màn trình diễn của họ với các biện pháp đồng bằng. Thống nhất và hoàn ly, theo kiểm tra công bằng trong nhiều bộ dữ liệu điểm chuẩn khác nhau, chúng tôi làm rõ một số kết luận không phù hợp hiện tại và thảo luận về một số kết quả nghiên cứu mới. 1. GIỚI THIỆU Gần đây, với nhiều ứng dụng mới, chẳng hạn như cảm biến mạng lưới công việc giám sát [23, 24, 26], di chuyển đối tượng tìm kiếm [13, 14, 15] và tương tác protein-protein (PPI) phân tích mạng [29], khai thác dữ liệu không chắc chắn đã trở thành một chủ đề nóng trong cộng đồng khai thác dữ liệu [3, 4, 5, 6, 20, 21]. Vì bài toán khai thác tập phổ biến là cơ bản trong lĩnh vực khai thác dữ liệu, phép làm bản sao kỹ thuật số hoặc khó khăn của tất cả hoặc một phần của tác phẩm này với mục đích cá nhân hoặc lớp học được cấp mà không cần lệ phí cung cấp bản sao mà không được thực hiện hoặc phân phối để thu lợi nhuận hoặc lợi thế thương mại và rằng bản sao chịu thông báo này và trích dẫn đầy đủ trên trang đầu tiên. Để sao chép nếu không tái xuất, đăng bài trên các máy chủ hoặc để phân phối lại các danh sách, đòi hỏi phải có sự cho phép trước và / hoặc lệ phí. Bài viết từ khối lượng này đã được mời để trình bày kết quả tại Hội nghị quốc tế lần thứ 38 về căn cứ dữ liệu rất lớn, ngày 27-ngày 31 tháng 8 năm 2012, Istanbul, Thổ Nhĩ Kỳ. Proceedings của VLDB Endowment, Vol. 5, số 11 Copyright 2012 VLDB Endowment 2150-8097 / 07/12 ... $ 10,00. tập phổ biến thường xuyên khai thác trên cơ sở dữ liệu không chắc chắn cũng đã thu hút được nhiều sự chú ý [4, 9, 10, 11, 17, 18, 22, 28, 30, 31, 33]. Ví dụ, với sự phổ biến của mạng sor sen- không dây, hệ thống mạng cảm biến không dây thu thập số lượng lớn dữ liệu. Tuy nhiên, do các ty uncertain- vốn có của các cảm biến, các dữ liệu thu được thường không chính xác. Đối với các dữ liệu không chắc chắn xác suất đã tính, làm thế nào chúng ta có thể khám phá ra er mẫu thường xuyên (tập phổ biến) để người sử dụng hiểu biết có thể chịu được các quy tắc ẩn trong dữ liệu? Các tài sản suất vốn có của dữ liệu được bỏ qua nếu chúng ta chỉ cần áp dụng phương pháp tradition- al khai thác tập phổ biến trong dữ liệu xác định dữ liệu không chắc chắn. Vì vậy, nó là cần thiết để thiết kế các thuật toán san chuyên cho khai thác tập phổ biến trên cơ sở dữ liệu không chắc chắn. Trước khi tìm tập phổ biến trên cơ sở dữ liệu không chắc chắn, các định nghĩa của các tập phổ biến là các vấn đề quan trọng nhất. Trong dữ liệu xác định, rõ ràng là một itemset là quent độ thường xuyên nếu và chỉ nếu hỗ trợ (tần số) của tập phổ biến như vậy không phải là nhỏ hơn so với một sự hỗ trợ tối thiểu quy định, min sup [7, 8, 19, 32]. Tuy nhiên, khác với trường hợp xác định, định nghĩa của một tập phổ biến trên các dữ liệu không chắc chắn có hai cách giải thích ngữ nghĩa khác nhau: dự kiến sẽ hỗ trợ dựa trên tập phổ biến [4, 18] và xác suất tập phổ biến [9]. Cả hai đều xem xét sự hỗ trợ của một tập phổ biến như là một biến ngẫu nhiên rời rạc. Tuy nhiên, cả hai định nghĩa khác nhau về việc sử dụng các biến ngẫu nhiên để xác định tập phổ biến. Trong định nghĩa của sự hỗ trợ dựa trên dự kiến tập phổ biến, những kỳ vọng về sự hỗ trợ của một tập item- được định nghĩa là đo lường, gọi là hỗ trợ dự kiến của tập phổ biến này. Trong định nghĩa này [4, 17, 18, 22], một itemset là thường xuyên nếu và chỉ nếu sự hỗ trợ dự kiến của tập phổ biến như vậy là không ít hơn mức tối thiểu quy định dự kiến ngưỡng, nhằm hỗ trợ, min esup. Trong định nghĩa của xác suất tập phổ biến [9, 28, 31], xác suất một itemset xuất hiện ít nhất là sự hỗ trợ tối thiểu (min sup) lần được định nghĩa là đo lường, được gọi là trách xác suất thường xuyên của một tập phổ biến, và một itemset là thường xuyên nếu và chỉ nếu xác suất thường xuyên của tập phổ biến như vậy là lớn hơn một ngưỡng xác suất nhất định. Các định nghĩa về dự kiến hỗ trợ dựa trên tập phổ biến sử dụng kỳ vọng để đo lường sự không chắc chắn, đó là một phần mở rộng đơn giản của định nghĩa của tập phổ biến trong dữ liệu xác định. Các định nghĩa của xác suất tập phổ biến bao gồm các phân bố xác suất hoàn toàn của sự hỗ trợ của một tập phổ biến. Mặc dù kỳ vọng được biết đến như là một số liệu thống kê quan trọng, nó không thể hiện sự phân bố xác suất đầy đủ. Hầu hết các nghiên cứu trước cho rằng hai định nghĩa này phải được nghiên cứu tương ứng [9, 28, 31]. Tuy nhiên, chúng ta thấy rằng cả hai định nghĩa có một kết nối khá gần. Cả hai định nghĩa xem xét hỗ trợ của một tập phổ biến như là một biến ngẫu nhiên theo phân phối Poisson nhị thức [2], đó là sự hỗ trợ dự kiến của một tập phổ biến bằng với kỳ vọng của biến ngẫu nhiên. Conse- xuyên, tính toán xác suất thường xuyên của một tập phổ biến là tương đương với việc tính toán phân phối tích lũy hàm sự của biến ngẫu nhiên này. Ngoài ra, các lý thuyết ematical math- hiện cho thấy rằng phân phối Poisson và phân phối bình thường có thể xấp xỉ Poisson phân phối nhị thức dưới sự tự tin cao [31, 10]. Dựa trên Lyapunov ương tral Limit Theory [25], sự phân bố bình thường hội tụ để phân phối Poisson nhị thức với xác suất cao. Hơn nữa, sự phân bố nhị thức Poisson có đói prop- âm thanh: các tính toán của các kỳ vọng và phương sai là như nhau về độ phức tạp tính toán. Do đó, xác suất thường xuyên của một tập phổ biến có thể được trực tiếp com- puted miễn là chúng ta biết giá trị kỳ vọng và phương sai của sự hỗ trợ của tập phổ biến như vậy khi số lượng bạch các hoạt động trên cơ sở dữ liệu không chắc chắn là đủ lớn [10] (do các yêu cầu của ry Lyapunov Trung Limit Theo-). Nói cách khác, định nghĩa thứ hai là giống hệt nhau để định nghĩa đầu tiên nếu định nghĩa đầu tiên cũng coi việc bảo vari của sự hỗ trợ cùng một lúc. Hơn nữa, một kết quả thú vị là các thuật toán hiện có để khai thác Thí kiến sẽ hỗ trợ dựa trên tập phổ biến được áp dụng cho các vấn đề khai thác xác suất tập phổ biến miễn là họ cũng tính phương sai của sự hỗ trợ của mỗi item- thiết lập khi họ tính toán từng dự kiến hỗ trợ. Như vậy, hiệu quả của khai thác tập phổ biến xác suất có thể được cải thiện rất nhiều do sự tồn tại của nhiều thuật toán khai thác hiệu quả Thí ngờ hỗ trợ dựa trên tập phổ biến. Trong bài báo này, chúng tôi xác minh kết luận thông qua so sánh thử nghiệm rộng rãi. Bên cạnh nhìn của các mối quan hệ ẩn giữa hai định nghĩa trên, nghiên cứu hiện có trên inition def- cùng cũng cho thấy kết luận trái ngược nhau. Ví dụ, trong nghiên cứu khai thác dự kiến sẽ hỗ trợ dựa trên tập phổ biến, [22] cho thấy thuật toán UFP-tăng trưởng luôn ngoài thực hiện thuật toán UApriori đối với thời gian chạy với. Tuy nhiên, [4] báo cáo rằng thuật toán UFP-tăng trưởng luôn chậm hơn so với thuật toán UApriori. Những kết luận t inconsisten- làm cho các nhà nghiên cứu sau này nhầm lẫn về mà kết quả là chính xác. Việc thiếu cơ sở triển khai thực hiện thống nhất là một trong những yếu tố gây ra các kết luận không phù hợp. Cho nên, kết quả thí nghiệm khác nhau có nguồn gốc từ Ancy discrep- trong số rất nhiều các kỹ năng thực hiện, làm mờ những đóng góp của các thuật toán là gì. Ví dụ, các thuật toán thực hiện để UFP tăng trưởng sử dụng các loại "phao" để lưu trữ từng xác suất. Trong khi thực hiện thuật toán cho UH- Mine thông qua các "loại kép". Sự khác biệt về chi phí bộ nhớ của họ không thể phản ánh hiệu quả của hai thuật toán một cách khách quan. Như vậy, cơ bản thống nhất thöïc hieän mentations có thể loại bỏ nhiễu từ các chi tiết thực hiện và báo cáo đóng góp thực sự của mỗi thuật toán. Ngoại trừ việc triển khai cơ sở thống nhất, việc lựa chọn các biện pháp khách quan và khoa học cũng là một trong những yếu tố quan trọng nhất của trong việc so sánh công bằng thực nghiệm. Bởi vì các thuật toán khai thác dữ liệu không chắc chắn cần phải xử lý một lượng lớn dữ liệu, thời gian chạy, chi phí bộ nhớ và tính scala- là biện pháp cơ bản khi tính đúng đắn của thuật toán được đảm bảo. Ngoài ra, để đánh đổi tính chính xác cho cách hiệu ficiency, các thuật toán khai thác tập phổ biến xấp xỉ xác suất cũng được đề xuất [10, 31]. Để so sánh các lationship lại giữa hai định nghĩa tập phổ biến, chúng tôi sử dụng chính xác và thu hồi các biện pháp để đánh giá hiệu quả sự tương đối. Hơn nữa, kể từ khi kết luận không phù hợp trên có thể được gây ra bởi sự phụ thuộc vào dữ liệu này, trong tác phẩm này, chúng tôi chọn sáu di
đang được dịch, vui lòng đợi..
