4.3.2 Efficient Implementation of A

4.3.2 Efficient Implementation of Attribute-Oriented Induction
“How is attribute-oriented induction actually implemented?” The previous subsection providedanintroductiontoattribute-orientedinduction.Thegeneralprocedureissummarized in Figure 4.19. The efficiency of this algorithm is analyzed as follows:
Step 1 of the algorithm is essentially a relational query to collect the task-relevant data into the working relation,W. Its processing efficiency depends on the query processing methods used. Given the successful implementation and commercialization of database systems, this step is expected to have good performance.
Algorithm: Attribute oriented induction. Mining generalized characteristics in a relational database given a user’s data mining request.
Input:
DB, a relational database;
DMQuery, a data mining query;
a list, a list of attributes (containing attributes, ai);
Gen(ai), a set of concept hierarchies or generalization operators on attributes, ai;
a gen thresh(ai), attribute generalization thresholds for each ai.
Output: P, a Prime generalized relation.
Method:
1. W ← get task relevant data (DMQuery, DB); // Let W, the working relation, hold the task-relevant data.
2. prepare for generalization (W); // This is implemented as follows.
(a) Scan W and collect the distinct values for each attribute, ai. (Note: If W is very large, this may be done by examining a sample of W.)
(b) For each attribute ai, determine whether ai should be removed, and if not, compute its minimum desired level Li based on its given or default attribute threshold, and determine the mappingpairs (v, v0), where v is a distinct value of ai inW, and v0 is its corresponding generalized value at level Li.
3. P ← generalization (W),
The Prime generalized relation, P, is derived by replacing each value v in W by its corresponding v0 in the mapping while accumulating count and computing any other aggregate values. This step can be implemented efficiently using either of the two following variations:
(a) For each generalized tuple, insert the tuple into a sorted prime relation P by a binary search: if the tuple is already in P, simply increase its count and other aggregate values accordingly; otherwise, insert it into P.
(b) Since in most cases the number of distinct values at the prime relation level is small, the prime relation can be coded as an m-dimensional array where m is the number of attributes in P, and each dimension contains the corresponding generalized attribute values. Each array element holds the corresponding count and other aggregation values, if any. The insertion of a generalized tuple is performed by measure aggregation in the corresponding array element.

Figure 4.19 Basic algorithm for attribute-oriented induction.
Step 2 collects statistics on the working relation. This requires scanning the relation at most once. The cost for computing the minimum desired level and determining the mapping pairs, (v, v0), for each attribute is dependent on the number of distinct values for each attribute and is smaller than N, the number of tuples in the initial relation.
Step 3 derives the prime relation, P. This is performed by inserting generalized tuples into P. There are a total of N tuples in W and p tuples in P. For each tuple, t, in W, we substitute its attribute values based on the derived mapping-pairs. This results in a generalized tuple, t0. If variation (a) is adopted, each t0 takes O(logp) to find the location for count increment or tuple insertion. Thus the total time complexity is O(N ×logp) for all of the generalized tuples. If variation (b) is adopted, each t0 takes O(1) to find the tuple for count increment. Thus the overall time complexity is O(N) for all of the generalized tuples.
Many data analysis tasks need to examine a good number of dimensions or attributes. This may involve dynamically introducing and testing additional attributes rather than just those specified in the mining query. Moreover, a user with little knowledge of the truly relevant set of data may simply specify “in relevance to ∗” in the mining query, which includes all of the attributes into the analysis. Therefore, an advanced concept description mining process needs to perform attribute relevance analysis on large sets of attributes to select the most relevant ones. Such analysis may employ correlation or entropy measures, as described in Chapter 2 on data preprocessing.

4.3.2 Efficient Implementation of Attribute-Oriented Induction
“How is attribute-oriented induction actually implemented?” The previous subsection providedanintroductiontoattribute-orientedinduction.Thegeneralprocedureissummarized in Figure 4.19. The efficiency of this algorithm is analyzed as follows:
 Step 1 of the algorithm is essentially a relational query to collect the task-relevant data into the working relation,W. Its processing efficiency depends on the query processing methods used. Given the successful implementation and commercialization of database systems, this step is expected to have good performance.
Algorithm: Attribute oriented induction. Mining generalized characteristics in a relational database given a user’s data mining request.
Input:
DB, a relational database;
DMQuery, a data mining query;
a list, a list of attributes (containing attributes, ai);
Gen(ai), a set of concept hierarchies or generalization operators on attributes, ai;
a gen thresh(ai), attribute generalization thresholds for each ai.
Output: P, a Prime generalized relation.
Method:
1. W ← get task relevant data (DMQuery, DB); // Let W, the working relation, hold the task-relevant data.
2. prepare for generalization (W); // This is implemented as follows.
(a) Scan W and collect the distinct values for each attribute, ai. (Note: If W is very large, this may be done by examining a sample of W.)
(b) For each attribute ai, determine whether ai should be removed, and if not, compute its minimum desired level Li based on its given or default attribute threshold, and determine the mappingpairs (v, v0), where v is a distinct value of ai inW, and v0 is its corresponding generalized value at level Li.
3. P ← generalization (W),
The Prime generalized relation, P, is derived by replacing each value v in W by its corresponding v0 in the mapping while accumulating count and computing any other aggregate values. This step can be implemented efficiently using either of the two following variations:
(a) For each generalized tuple, insert the tuple into a sorted prime relation P by a binary search: if the tuple is already in P, simply increase its count and other aggregate values accordingly; otherwise, insert it into P.
(b) Since in most cases the number of distinct values at the prime relation level is small, the prime relation can be coded as an m-dimensional array where m is the number of attributes in P, and each dimension contains the corresponding generalized attribute values. Each array element holds the corresponding count and other aggregation values, if any. The insertion of a generalized tuple is performed by measure aggregation in the corresponding array element.
 
Figure 4.19 Basic algorithm for attribute-oriented induction.
 Step 2 collects statistics on the working relation. This requires scanning the relation at most once. The cost for computing the minimum desired level and determining the mapping pairs, (v, v0), for each attribute is dependent on the number of distinct values for each attribute and is smaller than N, the number of tuples in the initial relation.
 Step 3 derives the prime relation, P. This is performed by inserting generalized tuples into P. There are a total of N tuples in W and p tuples in P. For each tuple, t, in W, we substitute its attribute values based on the derived mapping-pairs. This results in a generalized tuple, t0. If variation (a) is adopted, each t0 takes O(logp) to find the location for count increment or tuple insertion. Thus the total time complexity is O(N ×logp) for all of the generalized tuples. If variation (b) is adopted, each t0 takes O(1) to find the tuple for count increment. Thus the overall time complexity is O(N) for all of the generalized tuples.
Many data analysis tasks need to examine a good number of dimensions or attributes. This may involve dynamically introducing and testing additional attributes rather than just those specified in the mining query. Moreover, a user with little knowledge of the truly relevant set of data may simply specify “in relevance to ∗” in the mining query, which includes all of the attributes into the analysis. Therefore, an advanced concept description mining process needs to perform attribute relevance analysis on large sets of attributes to select the most relevant ones. Such analysis may employ correlation or entropy measures, as described in Chapter 2 on data preprocessing.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

4.3.2 hiệu quả thực hiện thuộc tính theo định hướng cảm ứng
"Làm thế nào thuộc tính theo định hướng cảm ứng thực sự thực hiện?" Tổ chức phần mềm trước phụ providedanintroductiontoattribute-orientedinduction.Thegeneralprocedureissummarized trong hình 4,19. Hiệu quả của thuật toán này được phân tích như sau:
Bước 1 của thuật toán là cơ bản một truy vấn quan hệ để thu thập dữ liệu nhiệm vụ có liên quan vào mối quan hệ làm việc, W. Hiệu quả xử lý của nó phụ thuộc vào các truy vấn chế biến phương pháp được sử dụng. Được triển khai thành công và thương mại hóa của hệ thống cơ sở dữ liệu, bước này dự kiến sẽ có hiệu suất tốt.
thuật toán: thuộc tính cảm ứng theo định hướng. Khai thác mỏ tổng quát các đặc điểm trong một cơ sở dữ liệu quan hệ cho một người sử dụng dữ liệu khai thác mỏ yêu cầu.
đầu vào:
DB, cơ sở dữ liệu quan hệ;
DMQuery, một khai thác dữ liệu truy vấn;
danh, một danh sách các thuộc tính (có chứa các thuộc tính, ai);
Gen(ai), một tập hợp các khái niệm phân cấp hoặc nhà điều hành tổng quát về thuộc tính, ai;
gen thresh(ai), thuộc tính tổng quát ngưỡng cho mỗi ai.
đầu ra: P, một số nguyên tố tổng quát quan hệ.
phương pháp:
1. W ← có được nhiệm vụ dữ liệu có liên quan (DMQuery, DB); Hãy để W, mối quan hệ làm việc, Giữ các dữ liệu có liên quan đặc nhiệm.
2. chuẩn bị cho tổng quát (W); Điều này được thực hiện như là follows.
(a) quét W và thu thập các giá trị khác biệt cho mỗi thuộc tính, ai. (Lưu ý: nếu W là rất lớn, điều này có thể được thực hiện bằng cách kiểm tra một mẫu W.)
(b) cho mỗi thuộc tính ai, xác định xem ai cần được loại bỏ, và nếu không, tính toán của nó mong muốn tối thiểu cấp Li dựa trên của nó nhất định hoặc mặc định thuộc tính ngưỡng, và xác định các mappingpairs (v, v0), nơi v là một giá trị khác biệt của ai inW, và v0 là tương ứng của nó tổng quát các giá trị tại cấp Li.
3. P ← tổng quát (W),
The Prime tổng quát hóa quan hệ, P, có nguồn gốc bằng cách thay thế mỗi giá trị v W bởi v0 tương ứng của nó trong lập bản đồ trong khi tích lũy số lượng và tính toán bất kỳ giá trị tổng hợp khác. Bước này có thể được thực hiện một cách hiệu quả bằng cách sử dụng một trong hai sau variations:
(a) cho mỗi tuple tổng quát, chèn tuple vào một mối quan hệ chính được sắp xếp P bởi một tìm kiếm nhị phân: nếu tuple đã P, chỉ đơn giản là tăng số lượng của nó và giá trị tổng hợp khác cho phù hợp; Nếu không, chèn nó vào P.
(b) vì trong hầu hết trường hợp số lượng các giá trị khác biệt ở mức mối quan hệ chính là nhỏ, mối quan hệ chính có thể được mã hóa như một mảng m-chiều nơi m là một số thuộc tính trong P, và mỗi kích thước chứa tương ứng giá trị thuộc tính tổng quát. Mỗi phần tử mảng giữ tính tương ứng và tập hợp các giá trị khác, nếu có. Chèn một tuple tổng quát được thực hiện bởi biện pháp tập hợp trong các tương ứng mảng nguyên tố.

các thuật toán hình 4,19 cơ bản cho thuộc tính theo định hướng quy nạp.
bước 2 thu thập số liệu thống kê về mối quan hệ làm việc. Điều này đòi hỏi chức năng quét các mối quan hệ tối đa một lần. Chi phí cho máy tính mong muốn mức tối thiểu và xác định các bản đồ cặp, (v, v0), đối với mỗi thuộc tính phụ thuộc vào số lượng các giá trị khác biệt cho mỗi thuộc tính và nhỏ hơn N, số tuples trong ban đầu mối quan hệ.
bước 3 có nguồn gốc nguyên tố mối quan hệ, P. Điều này được thực hiện bằng cách chèn tổng quát tuples vào P. Có tổng cộng N tuples trong W và p tuples trong P. Cho mỗi tuple, t, trong W, chúng tôi thay thế các giá trị thuộc tính dựa trên các bản đồ có nguồn gốc-cặp. Kết quả là một tổng quát tuple, t0. Nếu biến thể (a) được áp dụng, mỗi t0 mất O(logp) để tìm vị trí cho số lượng tăng hoặc tuple chèn. Do đó tất cả thời gian phức tạp là O (N × logp) cho tất cả các tuples tổng quát. Nếu biến thể (b) được áp dụng, mỗi t0 mất O(1) để tìm tuple cho số lượng tăng. Vì vậy thời gian tổng thể phức tạp là O(N) cho tất cả các tổng quát tuples.
nhiều công việc phân tích dữ liệu cần kiểm tra một số lượng tốt của kích thước hoặc thuộc tính. Điều này có thể bao gồm tự động giới thiệu và thử nghiệm thêm thuộc tính chứ không phải là chỉ những người được chỉ định trong truy vấn khai thác mỏ. Hơn nữa, người dùng có ít kiến thức về bộ dữ liệu, thực sự có liên quan có thể sửa chỉ định đơn giản trong truy vấn khai thác mỏ, bao gồm tất cả các thuộc tính vào các phân tích, "trong sự liên quan đến ∗". Do đó, một quá trình khai thác mô tả khái niệm tiên tiến cần phải thực hiện thuộc tính liên quan phân tích trên tập lớn của các thuộc tính để chọn những người phù hợp nhất. Phân tích như vậy có thể sử dụng tương quan hoặc biện pháp dữ liệu ngẫu nhiên, như được diễn tả trong chương 2 trên tiền xử lý dữ liệu.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

4.3.2 Hiệu quả thực hiện của thuộc tính hướng cảm ứng
"Làm thế nào là cảm ứng thuộc tính định hướng thực sự thực hiện?" Các tiểu mục trước providedanintroductiontoattribute-orientedinduction.Thegeneralprocedureissummarized trong hình 4.19. Hiệu quả của thuật toán này được phân tích như sau:
Bước 1 của thuật toán cơ bản là một truy vấn quan hệ để thu thập các dữ liệu công việc có liên quan vào các mối quan hệ làm việc, W. Hiệu quả xử lý của nó phụ thuộc vào các phương pháp xử lý truy vấn sử dụng. Được thực hiện thành công và thương mại hóa hệ thống cơ sở dữ liệu, bước này dự kiến sẽ có hiệu suất tốt.
Thuật toán: Thuộc tính định hướng cảm ứng. Khai thác đặc điểm khái quát trong một cơ sở dữ liệu quan hệ được yêu cầu khai thác dữ liệu của người dùng.
vào:
DB, một cơ sở dữ liệu quan hệ;
DMQuery, một truy vấn khai thác dữ liệu;
một danh sách, một danh sách các thuộc tính (có chứa các thuộc tính, ai);
Gen (ai), một bộ của hệ thống phân cấp khái niệm tổng quát hoặc các nhà khai thác trên các thuộc tính, ai;
một gen đập lúa (ai), thuộc tính ngưỡng tổng quát cho mỗi ai.
Output: P, một mối quan hệ Thủ tướng Chính tổng quát.
Phương pháp:
1. W ← nhận nhiệm vụ có liên quan dữ liệu (DMQuery, DB); / / Hãy W, mối quan hệ làm việc, tổ chức các dữ liệu công việc có liên quan.
2. chuẩn bị cho tổng quát (W); / / Điều này được thực hiện như sau.
(a) Quét W và thu thập các giá trị riêng biệt cho mỗi thuộc tính, ai. (Lưu ý: Nếu W là rất lớn, điều này có thể được thực hiện bằng cách kiểm tra một mẫu của W.)
(b) Đối với mỗi ai thuộc tính, xác định xem ai cần được loại bỏ, và nếu không, tính toán tối thiểu mức độ mong muốn Li dựa trên định của nó hoặc ngưỡng thuộc tính mặc định, và xác định mappingpairs (v, v0), trong đó v là một giá trị riêng biệt của ai inw, và v0 là giá trị tổng quát tương ứng của nó ở mức Li.
3. P ← tổng quát (W),
Mối quan hệ tổng quát Thủ, P, có nguồn gốc bằng cách thay thế mỗi v giá trị trong W bởi v0 tương ứng của nó trong các bản đồ trong khi tích lũy số và máy tính bất kỳ giá trị tổng hợp khác. Bước này có thể được thực hiện một cách hiệu quả bằng cách sử dụng một trong hai biến thể sau đây:
(a) Đối với mỗi tuple tổng quát, chèn tuple vào một mối quan hệ chính được sắp xếp P bởi một tìm kiếm nhị phân: nếu tuple là đã có trong P, chỉ đơn giản là tăng số lượng của nó và các giá trị tổng hợp cho phù hợp; nếu không, chèn nó vào P.
(b) Vì trong nhiều trường hợp số lượng các giá trị khác nhau ở mức độ mối quan hệ chính là nhỏ, quan hệ chính có thể được mã hóa như là một mảng m chiều trong đó m là số thuộc tính trong P, và mỗi chiều chứa các giá trị thuộc tính tổng quát tương ứng. Mỗi phần tử mảng nắm giữ số lượng tương ứng và giá trị hợp khác, nếu có. Chèn một bộ tổng quát được thực hiện bằng biện pháp tổng hợp trong các phần tử mảng tương ứng. Hình 4.19 thuật toán cơ bản cho cảm ứng thuộc tính định hướng. Bước 2 thu thập những số liệu thống kê về mối quan hệ làm việc. Điều này đòi hỏi quét mối quan hệ cùng một lúc nhất. Chi phí để tính toán mức độ mong muốn tối thiểu và xác định các cặp lập bản đồ, (v, v0), cho mỗi thuộc tính phụ thuộc vào số lượng các giá trị riêng biệt cho mỗi thuộc tính và nhỏ hơn N, số lượng các bộ dữ liệu trong các mối quan hệ ban đầu. Bước 3 xuất phát mối quan hệ nguyên tố, P. này được thực hiện bằng cách chèn bộ dữ liệu tổng quát vào P. Có tổng cộng N tuples trong tuples W và p trong P. Đối với mỗi tuple, t, trong W, chúng ta thay thế các giá trị thuộc tính của nó dựa trên có nguồn gốc bản đồ cặp. Điều này dẫn đến một bộ, t0 tổng quát. Nếu sự thay đổi (a) được thông qua, mỗi t0 mất O (logP) để tìm địa điểm cho tăng số lượng hoặc chèn tuple. Như vậy tổng số phức tạp thời gian là O (N × logP) cho tất cả các bộ dữ liệu tổng quát. Nếu sự thay đổi (b) được thông qua, mỗi t0 mất O (1) để tìm tuple cho số lượng tăng. Do đó độ phức tạp tổng thể là O (N) cho tất cả các bộ dữ liệu tổng quát. Nhiều nhiệm vụ phân tích dữ liệu cần phải kiểm tra một số lượng tốt của kích thước hoặc các thuộc tính. Điều này có thể liên quan đến tự động giới thiệu và thử nghiệm thuộc tính bổ sung hơn là chỉ quy định trong truy vấn khai thác mỏ. Hơn nữa, người dùng có ít kiến thức về các thiết lập thực sự liên quan của dữ liệu đơn giản có thể chỉ định "trong liên quan đến *" trong truy vấn khai thác mỏ, trong đó bao gồm tất cả các thuộc tính vào phân tích. Vì vậy, một quá trình khai thác mô tả khái niệm tiên tiến cần thực hiện phân tích liên quan thuộc tính trên bộ lớn của các thuộc tính để chọn những người phù hợp nhất. Phân tích như vậy có thể sử dụng tương quan hoặc dữ liệu ngẫu nhiên các biện pháp, như được mô tả trong Chương 2 trên dữ liệu tiền xử lý.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.