Thiết lập siêu tham số một cách thông minh
Ở ví dụ trên, chúng ta thiết lập các tham số hình phạt 1. Chúng tôi chỉ có thể cũng
đã đặt nó vào 2 (hoặc một nửa, hoặc 200, hoặc 20 triệu USD). Đương nhiên, các kết quả khác nhau mỗi lần.
Nếu chúng ta chọn một giá trị quá lớn, chúng tôi nhận được underfitting. Trong trường hợp cực đoan, việc học tập
hệ thống sẽ chỉ trở về mỗi hệ số bằng không. Nếu chúng ta chọn một giá trị đó là quá
nhỏ, chúng tôi overfit và rất gần gũi với OLS, mà khái quát kém.
Làm thế nào để chúng ta chọn một giá trị tốt? Đây là một vấn đề chung trong học máy:
thiết lập các thông số cho các phương pháp học tập của chúng tôi. Một giải pháp chung chung là sử dụng crossvalidation.
Chúng tôi chọn một tập hợp các giá trị có thể, và sau đó sử dụng cross-validation để chọn
cái nào là tốt nhất. Điều này thực hiện nhiều tính toán (mười lần hơn nếu chúng ta sử dụng 10
nếp gấp), nhưng luôn luôn được áp dụng và không thiên vị.
Chúng tôi phải cẩn thận, mặc dù. Để có được một ước tính tổng quát, chúng ta
phải sử dụng hai cấp độ của cross-validation: một cấp là để ước tính
tổng quát, trong khi mức độ thứ hai là để có được thông số tốt. Đó là, chúng ta chia
các dữ liệu, ví dụ, 10 lần. Chúng tôi bắt đầu bằng cách tổ chức ra lần đầu tiên và sẽ
tìm hiểu về chín khác. Bây giờ, chúng tôi chia các nếp gấp lại thành 10 để lựa chọn
các thông số. Một khi chúng tôi đã thiết lập các thông số của chúng tôi, chúng tôi thử nghiệm trên lần đầu tiên. Bây giờ,
chúng ta lặp lại chín lần này khác.
đang được dịch, vui lòng đợi..