Như chúng tôi đã đề cập trong các bài tập ở phần cuối của chương về thử nghiệm epsilon-Greedy
thuật toán, nó thường là một ý tưởng tốt để khuyến khích một thuật toán để khám phá ít thời gian. Trong
các thuật toán softmax, chúng ta có thể đạt được điều đó bằng cách từ từ giảm nhiệt độ, mà
chúng ta gọi là ủ. Tên ủ được dựa trên một phép ẩn dụ về rèn. Đối với
một thợ rèn, nhiệt luyện là một quá trình mà trong đó các thợ rèn chậm làm giảm nhiệt độ
mà tại đó ông làm việc với nóng chảy tan chảy để nó trở nên vững chắc hơn và ít
linh hoạt. Điều này có ích cho vật liệu xây dựng mạnh mẽ hơn khi các kim loại được gần gũi hơn để cuối cùng, nó
hình dạng mong muốn.
đang được dịch, vui lòng đợi..