Phân loại là quá trình tìm kiếm một mô hình (hoặc chức năng) mô tả và phân biệt được
guishes dữ liệu các lớp học hoặc các khái niệm. Mô hình này có nguồn gốc dựa trên phân tích của một tập hợp các
dữ liệu huấn luyện (tức là, các đối tượng dữ liệu mà các nhãn lớp được biết). Mô hình này được sử dụng
để dự đoán nhãn lớp của các đối tượng mà các nhãn lớp không biết.
"Làm thế nào là mô hình bắt nguồn giới?" Các mô hình bắt nguồn có thể được đại diện trong var-
hình thức ious, chẳng hạn như quy tắc phân loại (tức là, IF- THEN), cây quyết định, toán học
công thức, hoặc các mạng thần kinh (Hình 1.9). Adecision cây là một cấu trúc cây sơ đồ giống như,
nơi mỗi nút biểu thị một thử nghiệm trên một giá trị thuộc tính, mỗi chi nhánh đại diện cho một kết quả
của thử nghiệm, và lá cây đại diện cho các lớp học hoặc phân lớp. Cây quyết định có thể easilybe chuyển đổi ra quy tắc phân loại. Mạng Aneural, khi được sử dụng để phân loại, là typ-
ically một bộ sưu tập của các đơn vị chế biến tế bào thần kinh giống như với các kết nối trọng giữa các
đơn vị. Có nhiều phương pháp khác để xây dựng các mô hình phân loại, chẳng hạn như na Ive
phân loại Bayesian, hỗ trợ các máy vector, và phân loại k-gần hàng xóm.
Trong khi đó, phân loại dự đoán phân loại (rời rạc, không có thứ tự) nhãn, hồi quy
mô hình chức năng liên tục có giá trị. Đó là, hồi quy được sử dụng để dự đoán thiếu hoặc
không có sẵn số giá trị dữ liệu chứ không phải là nhãn (rời rạc) lớp. Dự đoán hạn
đề cập đến cả hai dự đoán số và dự đoán nhãn lớp. Phân tích hồi quy là một
phương pháp thống kê được sử dụng nhiều nhất để dự đoán số, mặc dù khác
phương pháp tồn tại. Regression cũng bao gồm việc xác định các phân phối
xu hướng dựa trên các dữ liệu có sẵn.
Phân loại và hồi quy có thể cần phải được đi trước bằng cách phân tích liên quan, mà
cố gắng để xác định thuộc tính có liên quan đáng kể đến việc phân loại và
hồi quy trình. Thuộc tính này sẽ được lựa chọn để phân loại và hồi quy
trình. Các thuộc tính khác, mà là không thích hợp, sau đó có thể được loại trừ khỏi xem xét.
Phân loại và hồi quy. Giả sử như một người quản lý bán hàng của AllElectronics bạn muốn
phân loại một tập lớn các mặt hàng trong cửa hàng, dựa trên ba loại phản ứng với một Căm bán hàng
& chiến dịch: phản ứng tốt, phản ứng nhẹ và không có phản ứng. Bạn muốn lấy được một mô hình cho mỗi
trong ba lớp dựa trên các tính năng mô tả của các mục, chẳng hạn như giá cả, thương hiệu,
nơi thực hiện, loại, và thể loại. Việc phân loại kết quả tối đa nên phân biệt
mỗi lớp từ những người khác, trình bày một bức tranh có tổ chức của tập dữ liệu.
Giả sử rằng sự phân loại kết quả được thể hiện như một cây quyết định. Quyết định
cây, ví dụ, có thể xác định giá như là yếu tố duy nhất để phân biệt tốt nhất
ba lớp. Cây có thể cho thấy rằng, ngoài giá cả, tính năng khác giúp để
phân biệt thêm đối tượng của mỗi lớp cách nhau bao gồm thương hiệu và đặt làm.
Một cây quyết định như vậy có thể giúp bạn hiểu được tác động của chiến dịch bán hàng cho
và thiết kế một nhiều hơn chiến dịch hiệu quả trong tương lai.
Giả sử thay vào đó, mà hơn là dự đoán nhãn phản ứng phân loại cho mỗi cửa hàng
item, bạn muốn để dự đoán số lượng doanh thu mà mỗi mục sẽ tạo ra
trong quá trình đặt hàng sắp tới tại AllElectronics, dựa trên các dữ liệu bán hàng trước đó. Đây là một
ví dụ về phân tích hồi quy vì các mô hình hồi quy được xây dựng sẽ dự báo một
hàm liên tục (hoặc giá trị đặt hàng.)
Chương 8 và 9 thảo luận về phân chi tiết hơn. Phân tích hồi quy là vượt ra ngoài
phạm vi của cuốn sách này. Nguồn để biết thêm thông tin được đưa ra trong thư mục
ghi chú.
đang được dịch, vui lòng đợi..