cây khác có thể bị mất cân bằng trong một phần của cây. Các phương pháp lai thích nghi
tốt với tất cả các loại cây phân loại. Nếu các cây quyết định là gầy, lai
tiếp cận sẽ chỉ ở lại với các phương pháp tiếp cận đồng bộ Tree Xây dựng. Trên
Mặt khác, nó sẽ chuyển sang phân vùng tiếp cận Tree Xây dựng như
ngay sau khi trở thành cây rậm rạp. Nếu cây có một phương sai lớn trong chiều sâu, các
phương pháp lai sẽ thực hiện tải động cân bằng với các nhóm vi xử lý để
giảm bộ xử lý chạy không tải.
Xử lý các thuộc tính liên tục Các phương pháp mô tả ở trên tập trung
chủ yếu vào việc làm thế nào cây được xây dựng song song đối với các vấn đề
của phụ tải cân bằng và giảm chi phí thông tin liên lạc. Các cuộc thảo luận đã được
đơn giản hóa bằng cách giả thiết về sự vắng mặt của các thuộc tính liên tục có giá trị. Áp lực
khoa của các thuộc tính liên tục có thể được xử lý theo hai cách. Một là để thực hiện
rời rạc thông minh, hoặc là một lần trong đầu hoặc tại mỗi nút là
cây đang được gây ra, và đối xử với họ như các thuộc tính phân loại. Một người khác, nhiều
cách tiếp cận phổ biến là sử dụng quyết định của mẫu A <x và A ≥ x, trực tiếp
trên giá trị x của thuộc tính liên tục A. Giá trị quyết định của x cần phải được
xác định tại mỗi nút. Để tìm kiếm hiệu quả của x, hầu hết các thuật toán yêu cầu các
thuộc tính phải được sắp xếp trên các giá trị, như vậy mà một lần quét tuyến tính có thể được thực hiện trên
tất cả các giá trị để đánh giá các quyết định tốt nhất. Trong số các thuật toán khác nhau,
phương pháp của SPRINT thuật toán [SAM96], mà sắp xếp từng liên tục
thuộc tính chỉ có một lần trong đầu, được chứng minh là có hiệu quả đối với các tập dữ liệu lớn.
Thứ tự sắp xếp được duy trì trong suốt quá trình cảm ứng, như vậy tránh được
sự có thể quá mức chi phí của việc tái phân loại tại mỗi nút. Một danh sách riêng biệt được lưu giữ cho
mỗi thuộc tính, trong đó các định danh bản ghi được kết hợp với nhau được sắp xếp
giá trị. Các bước quan trọng trong việc xử lý các thuộc tính liên tục là sự phân công hợp lý
của hồ sơ đến nút con sau khi quyết định chia tách được thực hiện. Thực hiện
điều này cung cấp những thách thức thiết kế. SPRINT xây dựng một ánh xạ giữa một kỷ lục
định danh và các nút mà nó đi vào dựa trên quyết định chia tách. Các
bản đồ được thực hiện như một bảng băm và được thăm dò để phân chia các danh sách thuộc tính
một cách nhất quán.
Xây dựng song song của thuật toán SPRINT thuộc thể loại của
đồng bộ thiết kế xây dựng cây. Các danh sách được sắp xếp liên tục nhiều của
thuộc tính được chia song song bằng cách xây dựng toàn bộ bảng băm trên tất cả các proces-
sors. Tuy nhiên, với cách này đầu óc đơn giản của việc đạt được một phân chia phù hợp, các
thuật toán phải gánh chịu một chi phí thông tin liên lạc của O (N) cho mỗi bộ vi xử lý. Kể từ khi, các se-
runtime rial của quá trình cảm ứng là O (N), SPRINT trở nên không thể leo với
sự tôn trọng thời gian chạy. Nó là không thể leo trong các yêu cầu bộ nhớ cũng được, bởi vì các to-
yêu cầu bộ nhớ tal mỗi bộ vi xử lý là O (N), như kích thước của bảng băm là của
cùng một thứ tự như kích thước của các tập dữ liệu đào tạo cho các cấp trên của deci-
cây sion, và nó cư trú trên mỗi bộ vi xử lý. Một thuật toán song song, ScalParC
[JKK98], giải quyết vấn đề khả năng mở rộng này. Nó sử dụng một bảng băm phân phối để
đạt được một sự chia rẽ phù hợp. Các cơ cấu truyền thông, được sử dụng để xây dựng và
truy cập vào bảng băm này, được thúc đẩy bởi sự thưa thớt ma trận vector song song multipli-
cation thuật toán. Nó được trình bày trong [JKK98] rằng với việc thực hiện đúng
các băm song song, trên cao truyền thông tổng thể không vượt quá
đang được dịch, vui lòng đợi..
