phương pháp, số hiệu quả của các biến
được xem xét có thể được giảm, hoặc cơ quan đại diện bất biến đối với các dữ liệu có thể được
tìm thấy.
Thứ năm là phù hợp với các mục tiêu của quá trình KDD (bước 1) để một khai thác dữ liệu cụ thể
phương pháp. Ví dụ, tổng hợp, phân loại, hồi quy, clustering, và như
vậy,. Được mô tả sau này cũng như trong Fayyad, Piatetsky-Shapiro, và Smyth (1996)
Thứ sáu là phân tích thăm dò và mô hình
và lựa chọn giả thuyết: việc lựa chọn các thuật toán datamining (s ) và lựa chọn phương pháp (s)
sẽ được sử dụng để tìm kiếm các mô hình dữ liệu.
Quá trình này bao gồm việc quyết định mô hình
và các thông số có thể thích hợp (ví dụ, các mô hình dữ liệu phân loại là khác nhau hơn so với mô hình của vectơ trên tập số thực) và
phù hợp với một dữ liệu cụ thể Phương pháp -mining
với tiêu chí chung của quá trình KDD
(ví dụ, người dùng cuối có thể quan tâm nhiều hơn trong việc tìm hiểu các mô hình hơn của
nó. khả năng tiên đoán)
Seventh là khai thác dữ liệu: tìm kiếm các mô hình quan tâm trong một hình thức biểu hiện cụ thể hoặc một tập hợp cơ quan đại diện như vậy,
bao gồm cả các quy tắc phân loại hoặc cây, hồi quy, và clustering. Người dùng có thể hỗ trợ đáng kể các phương pháp khai thác dữ liệu một cách chính xác bằng cách
thực hiện các bước trước.
Eighth được giải thích mô hình khai thác, có thể quay trở lại bất kỳ bước 1 đến 7 cho
lần lặp tiếp theo. Bước này cũng có thể liên quan
trực quan của mô hình chiết xuất và
mô hình hoặc trực quan của dữ liệu đưa ra các
mô hình chiết xuất.
Thứ chín là hành động trên các kiến thức đã phát hiện ra: sử dụng các kiến thức trực tiếp, kết hợp với các kiến thức vào một hệ thống khác để
tiếp tục hành động, hoặc chỉ đơn giản chứng minh điều này và
báo cáo cho các bên quan tâm. Quá trình này
cũng bao gồm việc kiểm tra và giải quyết các xung đột tiềm năng với trước đây từng (hoặc
trích) kiến thức.
Quá trình KDD có thể liên quan đáng kể
lặp và có thể chứa vòng giữa
bất kỳ hai bước. Các dòng chảy cơ bản của bước (mặc dù không phải là vô tiềm năng lặp và vòng lặp) được minh họa trong hình 1.
Hầu hết các công việc trước đây về KDD đã tập trung vào
bước 7, khai thác dữ liệu. Tuy nhiên, sự khác
bước như quan trọng (và có lẽ nhiều
hơn) cho các ứng dụng thành công của KDD trong
thực hành. Sau khi đã định nghĩa các khái niệm cơ bản
và giới thiệu quá trình KDD, bây giờ chúng tôi
tập trung vào các thành phần khai thác dữ liệu,
trong đó có, bởi đến nay, đã nhận được sự chú ý nhất trong văn học
đang được dịch, vui lòng đợi..
