Các mục tiêu chính hai cao cấp khai thác dữ liệu trong thực tế có xu hướng được dự báo và mô tả. Như đã nói ở trên, dự báo liên quan đến việc sử dụng một số các biến hoặc các trường trong các
cơ sở dữ liệu để dự đoán giá trị không biết hoặc tương lai
của các biến quan tâm khác, và mô tả
tập trung vào việc tìm kiếm các hình thái nhân-phiên dịch được mô tả dữ liệu. Mặc dù
ranh giới giữa dự báo và mô tả là không sắc nét (một số trong các tiên đoán
mô hình có thể được mô tả, đến mức độ mà
họ có thể hiểu được, và ngược lại), các
phân biệt là hữu ích cho sự hiểu biết các
mục tiêu phát hiện tổng thể. Tầm quan trọng tương đối của các dự báo và mô tả cho các ứng dụng khai thác dữ liệu cụ thể có thể thay đổi đáng kể. Các mục tiêu của dự báo và
mô tả có thể đạt được bằng cách sử dụng một loạt các
phương pháp khai thác dữ liệu cụ thể.
Classificationis học một hàm
ánh xạ (phân loại) một mục dữ liệu vào một trong những loại được xác định trước (Weiss và Kulikowski
1991; Hand 1981). Ví dụ về phân loại
các phương pháp được sử dụng như là một phần của khám phá tri thức
ứng dụng bao gồm các phân loại của các xu hướng
trong thị trường tài chính (Apte và Hồng 1996)
và nhận diện tự động các đối tượng
quan tâm đến cơ sở dữ liệu hình ảnh lớn (Fayyad,
Djorgovski, và Weir 1996). Hình 3 cho thấy một
phân vùng đơn giản của các số liệu cho vay vào hai
khu vực lớp học; lưu ý rằng nó không thể
tách các lớp hoàn hảo bằng cách sử dụng một tuyến
đường biên quyết định. Các ngân hàng có thể muốn
sử dụng các khu vực phân loại để tự động
quyết định xem ứng viên vay trong tương lai sẽ được
đưa ra một khoản vay hay không.
Regressionis học một chức năng mà các bản đồ
một mục dữ liệu cho một biến dự đoán giá trị thực. Ứng dụng hồi quy nhiều, cho
ví dụ, dự đoán số lượng sinh khối
hiện diện trong một khu rừng được đo vi sóng viễn thám, ước tính xác suất mà một bệnh nhân sẽ sống sót được đưa ra các kết quả của một loạt các thử nghiệm chẩn đoán, dự báo
nhu cầu tiêu dùng cho một sản phẩm mới như là một
chức năng của chi phí quảng cáo, và dự đoán chuỗi thời gian mà các biến đầu vào
có thể là phiên bản thời gian trễ của các dự báo
biến. Hình 4 cho thấy kết quả của việc đơn giản
hồi quy tuyến tính mà tổng nợ được lắp đặt như là một
hàm tuyến tính của thu nhập: phù hợp là nghèo bởi vì chỉ có một tương quan yếu tồn tại giữa
hai biến.
Clusteringis một phổ biến des
đang được dịch, vui lòng đợi..