DTREG vượt quá số lượng thể loại yếu tố dự báo một ngưỡng mà bạn có thể chỉ định trên các mô hìnhThiết kế trang thuộc tính (xem trang 33). Sử dụng kỹ thuật này cụm phân tích để nhóm cácloại mục tiêu biến thành hai nhóm. DTREG sau đó có thể cố gắng duy nhất (k-1)««chia tách, nơi k là một số loại dự báo.Sau khi DTREG đã đánh giá mỗi có thể chia cho mỗi yếu tố dự báo có thể biến, mộtnút được chia bằng cách sử dụng phần tách tốt nhất tìm thấy. Á hậu 1 tách được nhớ vàHiển thị dưới dạng "Đối thủ cạnh tranh chia tách" trong báo cáo.Đánh giá chia táchSự chia rẽ lý tưởng sẽ chia một nhóm thành hai nhóm trẻ em trong một cách để tất cả cáchàng trong con trái có cùng một giá trị trên các biến mục tiêu và tất cả các hàng trong cácNhóm phải có cùng một giá trị mục tiêu-nhưng khác nhau từ nhóm còn lại. Nếu sự chia rẽcó thể được tìm thấy, sau đó bạn có thể chính xác và hoàn toàn phân loại tất cả các hàng bằng cách sử dụng chỉ làSplit, và không tiếp tục chia tách là cần thiết hoặc hữu ích. Một tách hoàn hảo có thể chỉ khihàng trong các nút được tách ra có giá trị có thể chỉ có hai trên các biến mục tiêu.Thật không may, chia tách hoàn hảo không xảy ra thường xuyên, do đó, nó là cần thiết để đánh giá vàHãy so sánh các chất lượng hoàn hảo chia tách. Tiêu chí khác nhau đã được đề xuấtđánh giá chia tách, nhưng họ tất cả có cùng một mục tiêu cơ bản là để ưu tiên tính đồng nhấttrong vòng mỗi trẻ em nút và heterogeneity giữa các nút con. Heterogeneity-hoặc phân tán-loại mục tiêu trong một nút được gọi là "nút tạp chất". Mục tiêuchia tách là để sản xuất các nút con với tối thiểu tạp chất.Tạp chất của mỗi nút tính toán bằng cách kiểm tra việc phân phối các loạiCác biến mục tiêu cho các hàng trong nhóm. Một nút "tinh khiết", nơi tất cả các hàng có cáccùng một giá trị của biến mục tiêu, có giá trị tạp chất của 0 (zero). Khi một tiềm năngSplit được đánh giá, xác suất-trọng là tạp chất của hai đứa trẻnút được trừ đi từ tạp chất của nút phụ huynh. Điều này giảm tạp chất làgọi là cải thiện sự chia rẽ. Chia rẽ với cải tiến lớn nhất là một trong nhữngđược sử dụng. Cải thiện giá trị cho chia tách được hiển thị trong thông tin nút là một phần của cácbáo cáo được tạo ra bởi DTREG.DTREG cung cấp hai phương pháp để đánh giá chất lượng của phần tách khi xây dựngphân loại cây, (1) Gini và (2) dữ liệu ngẫu nhiên. Chỉ có một phương pháp được cung cấp khixây dựng cây hồi qui, và đó là tối thiểu phương sai trong các nút. Tối thiểuphương sai/ít nhất hình vuông tiêu chí là điều cần thiết các tiêu chí tương tự được sử dụng bởi truyền thống, sốphân tích hồi quy (tức là, đường và chức năng phù hợp).Kinh nghiệm cho thấy rằng các tiêu chí chia tách không phải là rất quan trọng, và Gini vàDữ liệu ngẫu nhiên năng suất cây có rất giống nhau. Gini được coi là tốt hơn một chút so với dữ liệu ngẫu nhiên,Vì vậy, nó là tiêu chuẩn mặc định được sử dụng để phân loại cây. Xem Breiman, Friedman, Olshenvà đá phân loại và hồi qui cây (1984) cho một mô tả kỹ thuật của cácTiêu chí Gini và dữ liệu ngẫu nhiên.
đang được dịch, vui lòng đợi..