trường hợp 2 phương pháp Hunt, một thử nghiệm dựa trên một thuộc tính duy nhất được chọn để mở rộng
các nút hiện hành. Sự lựa chọn của một thuộc tính thông thường dựa vào entropy
tăng [Qui93] của các thuộc tính. Entropy của một thuộc tính, tính toán từ
các thông tin phân lớp, mô tả sức mạnh phân loại các thuộc tính
của chính nó. Các thuộc tính tốt nhất được chọn như là một thử nghiệm cho việc mở rộng nút.
Thuật toán cao song song để xây dựng cây quyết định phân loại là
mong muốn để đối phó với các tập dữ liệu lớn trong thời gian hợp lý. Classi-
quyết định fication thuật toán xây dựng cây có đồng thời tự nhiên, như một lần
một nút được tạo ra, tất cả các con của nó trong cây phân loại có thể được tạo ra
đồng thời. Hơn nữa, việc tính toán để tạo ra kế của một classi-
nút cây fication cũng có thể được phân hủy bằng cách thực hiện các dữ liệu phân hủy trên
dữ liệu huấn luyện. Tuy nhiên, song song của các thuật toán xây dựng
cây phân loại là thách thức đối với những lý do sau đây. Đầu tiên, hình dạng của
cây là rất bất thường và chỉ được xác định tại thời gian chạy. Hơn nữa,
số lượng công việc gắn liền với mỗi nút cũng khác nhau, và phụ thuộc dữ liệu.
Do đó bất kỳ đề án phân bổ tĩnh là khả năng bị mất cân bằng tải lớn.
Thứ hai, mặc dù những người thừa kế của một nút có thể được xử lý đồng thời,
tất cả họ đều sử dụng dữ liệu liên kết đào tạo với các nút cha. Nếu dữ liệu này được
tự động phân vùng và phân bổ cho các bộ xử lý khác nhau mà thực hiện đồng
putation cho các nút khác nhau, sau đó có một chi phí cao cho các phong trào dữ liệu. Nếu
dữ liệu không được phân chia một cách thích hợp, sau đó hiệu suất có thể xấu do sự
mất mát của các địa phương.
Nhiều công thức song song của cây quyết định phân loại đã được trình
đặt ra gần đây [Pea94, GAR96, SAM96, CDG + 97, Kuf97, JKK98, SHKS99] . Trong
phần, chúng tôi trình bày hai công thức song song cơ bản cho các quyết định phân loại
xây dựng cây và một sơ đồ lai kết hợp các tính năng tốt của cả hai
cách tiếp cận này được mô tả trong [SHKS99]. Hầu hết các thuật toán song song khác là
bản chất tương tự với hai thuật toán cơ bản và đặc điểm của họ có thể được
giải thích bằng cách sử dụng các thuật toán cơ bản hai. Đối với các công thức này song song, chúng tôi
tập trung trình bày của chúng tôi cho rời rạc chỉ thuộc tính. Việc xử lý liên tục
thuộc tính được thảo luận một cách riêng biệt. Trong tất cả các công thức song song, chúng tôi giả định rằng N
đang được dịch, vui lòng đợi..
