Lý do chính là k-gấp cross-xác nhận công cụ ước tính có một phương sai thấp hơn một tổ chức duy nhất-out thiết lập công cụ ước tính, có thể rất quan trọng nếu số lượng dữ liệu có sẵn được giới hạn. Nếu bạn có một tổ chức duy nhất trong bộ, nơi 90% của dữ liệu được sử dụng cho đào tạo và 10% được sử dụng để thử nghiệm, các thiết lập thử nghiệm là rất nhỏ, do đó, sẽ có rất nhiều biến thể trong ước tính hiệu suất cho mẫu khác nhau của dữ liệu, hoặc đối với các phân vùng khác nhau của dữ liệu để tạo thành đào tạo và kiểm tra bộ. xác nhận k-gấp làm giảm phương sai này bởi trung bình trên k phân vùng khác nhau, do đó, ước tính hiệu suất là ít nhạy cảm với các phân vùng dữ liệu. Bạn có thể đi thậm chí xa hơn bằng k lặp đi lặp lại gấp chéo-kiểm tra, nơi đường xác nhận được thực hiện bằng cách sử dụng partitionings khác nhau của dữ liệu để hình thành k bộ phụ, và sau đó tham gia trung bình trong đó là tốt.Lưu ý Tuy nhiên, tất cả các bước của mô hình phù hợp thủ tục (mô hình lựa chọn, lựa chọn tính năng vv) phải được thực hiện một cách độc lập trong mỗi màn hình đầu tiên của các thủ tục xác nhận đường, hoặc ước tính hiệu suất kết quả sẽ được thiên vị lạc quan.
đang được dịch, vui lòng đợi..