3 Thuật toán song song cho cảm ứng của cây quyết định
Classifiers
Phân loại là một vấn đề khai thác dữ liệu quan trọng. Các đầu vào cho vấn đề
là một dữ liệu tập hợp được gọi là tập huấn luyện, trong đó bao gồm một số ví dụ
từng có một số thuộc tính. Các thuộc tính hoặc là liên tục, khi
các giá trị thuộc tính được đặt hàng, hoặc phân loại, khi các giá trị thuộc tính là
không có thứ tự. Một trong những thuộc tính phân loại được gọi là nhãn lớp hoặc clas-
thuộc tính sifying. Mục tiêu là để sử dụng đào tạo thiết để xây dựng một mô hình của
các nhãn lớp dựa trên các thuộc tính khác như vậy mà các mô hình có thể được sử dụng để
phân loại dữ liệu mới không phải từ việc đào tạo dữ liệu tập. Lĩnh vực ứng dụng bao gồm tái
thị đuôi mục tiêu, phát hiện gian lận, và thiết kế các dịch vụ viễn thông
kế hoạch. Một số mô hình phân loại như các mạng thần kinh [Lip87], di truyền algo-
rithms [Gol89], và cây quyết định [Qui93] đã được đề xuất. Cây quyết định
có lẽ là phổ biến nhất kể từ khi họ có được độ chính xác hợp lý [DMT94]
và họ là tương đối rẻ tiền để tính toán.
Hầu hết các thuật toán cảm ứng dựa trên hiện có như C4.5 [Qui93], CDP [AIS93a],
SLIQ [MAR96], và SPRINT [SAM96] sử dụng phương pháp Hunt [Qui93] là cơ sở
thuật toán. Dưới đây là mô tả đệ quy của mình để xây dựng một cây quyết định từ
một tập hợp T các trường hợp đào tạo với các lớp học ký hiệu {C1, C2,. . . , Ck}.
Trường hợp 1 T có chứa tất cả các trường hợp thuộc về một lớp học duy nhất Cj. Các cây quyết định cho
T là một lá xác định lớp Cj.
Trường hợp 2 T chứa các trường hợp mà thuộc về một hỗn hợp của các lớp học. Một thử nghiệm được lựa chọn,
dựa trên một thuộc tính duy nhất, mà có một hoặc hai bên nhiều hơn kết quả độc quyền
{O1, O2,. . . , Trên}. Lưu ý rằng trong việc triển khai nhiều, n được chọn là
2 và điều này dẫn đến một cây quyết định nhị phân. T được phân chia thành các tập con
T1, T2,. . . , Tn, nơi Ti chứa tất cả các trường hợp trong T có kết quả Oi của
các thử nghiệm được lựa chọn. Các cây quyết định cho T bao gồm một nút quyết định xác định
các kiểm tra, và một chi nhánh cho mỗi kết cục tốt. Cùng xây dựng cây
máy móc được áp dụng một cách đệ quy cho mỗi tập hợp con của các trường hợp đào tạo.
Trường hợp 3 T không chứa trường hợp. Các cây quyết định cho T là một chiếc lá, nhưng các lớp được
liên kết với các lá phải được xác định từ thông tin khác với T.
Ví dụ, C4.5 chọn này là lớp thường gặp nhất ở phụ huynh
của nút này.
Hình 1 cho thấy một dữ liệu đào tạo thiết lập với bốn thuộc tính dữ liệu và hai lớp
và cây quyết định phân loại của nó được xây dựng bằng cách sử dụng phương pháp của Hunt. Trong
đang được dịch, vui lòng đợi..