1. GIỚI THIỆU
thuật toán khai thác tập phổ biến có thể là các thuật toán nổi tiếng trong lĩnh vực khai thác mô hình thường xuyên. Nhiều giải pháp hiệu quả đã được phát triển cho lớp này tương đối đơn giản của mô hình. Trong khi nhiệm vụ khai thác tập phổ biến trong một mối quan hệ duy nhất được nghiên cứu đầy đủ, chỉ có một vài giải pháp tồn tại cho khai thác tập phổ biến trong cơ sở dữ liệu quan hệ tùy tiện, mà thường có nhiều hơn một mối quan hệ [4, 5, 9, 10]. Những phương pháp này xem xét một tập phổ biến quan hệ là một tập hợp các mặt hàng, trong đó mỗi mục là một cặp thuộc tính-giá trị, thuộc một hoặc nhiều mối quan hệ trong cơ sở dữ liệu. Để cho hai hoặc nhiều mặt hàng từ các mối quan hệ khác nhau để có trong tập phổ biến, họ phải được kết nối. Hai mặt hàng được coi là kết nối nếu có một tham gia của hai mối quan hệ của họ trong cơ sở dữ liệu kết nối chúng. Nói chung, một tập phổ biến được cho là xảy ra trong cơ sở dữ liệu, nếu có một bộ trong một gia của các mối quan hệ, trong đó có các tập phổ biến. Trong bài báo này chúng tôi cũng áp dụng khái niệm này xảy ra.
Một định nghĩa tốt đẹp của một đơn vị, trong đó sự hỗ trợ của một pat-chim nhạn được thể hiện - tức là những gì đang được tính - là một yêu cầu chính để khai thác bất kỳ loại mô hình thường xuyên. Các công trình hiện có trên quan hệ khai thác tập phổ biến [4, 9, 10], tần số của một tập phổ biến trên nhiều mối quan hệ được thể hiện trong số lần xuất hiện trong một tham gia của các mối quan hệ của cơ sở dữ liệu. Tuy nhiên, định nghĩa này hỗ trợ tập phổ biến là khó để giải thích, bởi vì nó phụ thuộc nhiều vào các mặt hàng như thế nào trong bộ là con-nected. Trong bài báo này, chúng tôi cho rằng sự phụ thuộc quan trọng được quy định trong chương trình quan hệ của các cơ sở dữ liệu đầu vào. Chúng tôi xác định sự hỗ trợ của một tập phổ biến bằng cách đếm các giá trị quan trọng duy nhất trong bộ dữ liệu nơi tập phổ biến xảy ra. Xem xét các cơ sở dữ liệu quan hệ trong hình 1, mà chúng ta sẽ sử dụng như là một ví dụ chạy ning trong suốt bài báo. Đối với cơ sở dữ liệu này, các
phím được sử dụng là {Professor.PID, Course.CID, Student.SID, Study.YID}. Kỹ thuật hỗ trợ tính mới này cho phép
tập phổ biến phiên dịch được, vì nó đi mà không nói rằng
tập phổ biến trong Professor.PID có ngữ nghĩa khác với tập phổ biến trong Course.CID. Cách tiếp cận này cho phép một thuật toán độ sâu-đầu tiên hiệu quả mà tạo ra tập phổ biến thường xuyên quan hệ thú vị đó là dễ hiểu.
đang được dịch, vui lòng đợi..
