4.3.2 hiệu quả thực hiện thuộc tính theo định hướng cảm ứng
"Làm thế nào thuộc tính theo định hướng cảm ứng thực sự thực hiện?" Tổ chức phần mềm trước phụ providedanintroductiontoattribute-orientedinduction.Thegeneralprocedureissummarized trong hình 4,19. Hiệu quả của thuật toán này được phân tích như sau:
Bước 1 của thuật toán là cơ bản một truy vấn quan hệ để thu thập dữ liệu nhiệm vụ có liên quan vào mối quan hệ làm việc, W. Hiệu quả xử lý của nó phụ thuộc vào các truy vấn chế biến phương pháp được sử dụng. Được triển khai thành công và thương mại hóa của hệ thống cơ sở dữ liệu, bước này dự kiến sẽ có hiệu suất tốt.
thuật toán: thuộc tính cảm ứng theo định hướng. Khai thác mỏ tổng quát các đặc điểm trong một cơ sở dữ liệu quan hệ cho một người sử dụng dữ liệu khai thác mỏ yêu cầu.
đầu vào:
DB, cơ sở dữ liệu quan hệ;
DMQuery, một khai thác dữ liệu truy vấn;
danh, một danh sách các thuộc tính (có chứa các thuộc tính, ai);
Gen(ai), một tập hợp các khái niệm phân cấp hoặc nhà điều hành tổng quát về thuộc tính, ai;
gen thresh(ai), thuộc tính tổng quát ngưỡng cho mỗi ai.
đầu ra: P, một số nguyên tố tổng quát quan hệ.
phương pháp:
1. W ← có được nhiệm vụ dữ liệu có liên quan (DMQuery, DB); Hãy để W, mối quan hệ làm việc, Giữ các dữ liệu có liên quan đặc nhiệm.
2. chuẩn bị cho tổng quát (W); Điều này được thực hiện như là follows.
(a) quét W và thu thập các giá trị khác biệt cho mỗi thuộc tính, ai. (Lưu ý: nếu W là rất lớn, điều này có thể được thực hiện bằng cách kiểm tra một mẫu W.)
(b) cho mỗi thuộc tính ai, xác định xem ai cần được loại bỏ, và nếu không, tính toán của nó mong muốn tối thiểu cấp Li dựa trên của nó nhất định hoặc mặc định thuộc tính ngưỡng, và xác định các mappingpairs (v, v0), nơi v là một giá trị khác biệt của ai inW, và v0 là tương ứng của nó tổng quát các giá trị tại cấp Li.
3. P ← tổng quát (W),
The Prime tổng quát hóa quan hệ, P, có nguồn gốc bằng cách thay thế mỗi giá trị v W bởi v0 tương ứng của nó trong lập bản đồ trong khi tích lũy số lượng và tính toán bất kỳ giá trị tổng hợp khác. Bước này có thể được thực hiện một cách hiệu quả bằng cách sử dụng một trong hai sau variations:
(a) cho mỗi tuple tổng quát, chèn tuple vào một mối quan hệ chính được sắp xếp P bởi một tìm kiếm nhị phân: nếu tuple đã P, chỉ đơn giản là tăng số lượng của nó và giá trị tổng hợp khác cho phù hợp; Nếu không, chèn nó vào P.
(b) vì trong hầu hết trường hợp số lượng các giá trị khác biệt ở mức mối quan hệ chính là nhỏ, mối quan hệ chính có thể được mã hóa như một mảng m-chiều nơi m là một số thuộc tính trong P, và mỗi kích thước chứa tương ứng giá trị thuộc tính tổng quát. Mỗi phần tử mảng giữ tính tương ứng và tập hợp các giá trị khác, nếu có. Chèn một tuple tổng quát được thực hiện bởi biện pháp tập hợp trong các tương ứng mảng nguyên tố.
các thuật toán hình 4,19 cơ bản cho thuộc tính theo định hướng quy nạp.
bước 2 thu thập số liệu thống kê về mối quan hệ làm việc. Điều này đòi hỏi chức năng quét các mối quan hệ tối đa một lần. Chi phí cho máy tính mong muốn mức tối thiểu và xác định các bản đồ cặp, (v, v0), đối với mỗi thuộc tính phụ thuộc vào số lượng các giá trị khác biệt cho mỗi thuộc tính và nhỏ hơn N, số tuples trong ban đầu mối quan hệ.
bước 3 có nguồn gốc nguyên tố mối quan hệ, P. Điều này được thực hiện bằng cách chèn tổng quát tuples vào P. Có tổng cộng N tuples trong W và p tuples trong P. Cho mỗi tuple, t, trong W, chúng tôi thay thế các giá trị thuộc tính dựa trên các bản đồ có nguồn gốc-cặp. Kết quả là một tổng quát tuple, t0. Nếu biến thể (a) được áp dụng, mỗi t0 mất O(logp) để tìm vị trí cho số lượng tăng hoặc tuple chèn. Do đó tất cả thời gian phức tạp là O (N × logp) cho tất cả các tuples tổng quát. Nếu biến thể (b) được áp dụng, mỗi t0 mất O(1) để tìm tuple cho số lượng tăng. Vì vậy thời gian tổng thể phức tạp là O(N) cho tất cả các tổng quát tuples.
nhiều công việc phân tích dữ liệu cần kiểm tra một số lượng tốt của kích thước hoặc thuộc tính. Điều này có thể bao gồm tự động giới thiệu và thử nghiệm thêm thuộc tính chứ không phải là chỉ những người được chỉ định trong truy vấn khai thác mỏ. Hơn nữa, người dùng có ít kiến thức về bộ dữ liệu, thực sự có liên quan có thể sửa chỉ định đơn giản trong truy vấn khai thác mỏ, bao gồm tất cả các thuộc tính vào các phân tích, "trong sự liên quan đến ∗". Do đó, một quá trình khai thác mô tả khái niệm tiên tiến cần phải thực hiện thuộc tính liên quan phân tích trên tập lớn của các thuộc tính để chọn những người phù hợp nhất. Phân tích như vậy có thể sử dụng tương quan hoặc biện pháp dữ liệu ngẫu nhiên, như được diễn tả trong chương 2 trên tiền xử lý dữ liệu.
đang được dịch, vui lòng đợi..
