Bây giờ chúng ta có thuật toán softmax mô tả và thực hiện đầy đủ, chúng ta nên
dành thời gian thảo luận về những gì các thông số nhiệt độ tau không. Nó là dễ dàng nhất để
nghĩ về tau như cho phép chúng ta thay đổi hành vi của các thuật toán softmax cùng một sự liên tục
được xác định bởi hai cách cực đoan để chọn vũ khí. Ở một thái cực, chúng tôi thiết lập tau = 0,0. Điều này
sẽ cung cấp cho chúng ta một sự lựa chọn hoàn toàn xác định của cánh tay mà có giá trị ước tính cao nhất.
Ở cực khác, chúng tôi thiết lập tau = Inf, mà cho chúng ta thăm dò hoàn toàn ngẫu nhiên như
chúng tôi đã nhận ra của thuật toán epsilon-tham lam. Lý do tham số tau này được gọi là một
thông số nhiệt độ là tác động của nó về việc lựa chọn vũ khí cũng giống như tác dụng của
nhiệt độ trên các nguyên tử trong vật lý truyền thống: ở nhiệt độ thấp, các nguyên tử sẽ hành xử
có trật tự và sản xuất các chất rắn, nhưng ở nhiệt độ cao, họ hành vi ngẫu nhiên và sẽ
tạo ra khí. Cũng giống như nguyên tử, các thuật toán softmax ở nhiệt độ thấp ứng xử có trật tự,
trong khi nó cư xử cơ bản ngẫu nhiên ở nhiệt độ cao.
đang được dịch, vui lòng đợi..
