Bạn có thể nhận được một trực giác ban đầu để làm thế nào các thuật toán xử lý softmax vấn đề này bằng cách
tưởng tượng rằng bạn chọn mỗi cánh tay tương ứng với giá trị ước tính của nó. Giả sử rằng
bạn có hai cánh tay, A và B. Bây giờ tưởng tượng rằng, dựa trên kinh nghiệm quá khứ của bạn, những
hai cánh tay đã có hai mức độ khác nhau của sự thành công: Ra và Rb. Với những giả định,
những điều có thể thực hiện ngây thơ nhất của một thuật toán softmax như sẽ có bạn
chọn Arm A với xác suất RA / (Ra + Rb) và Arm B với xác suất Rb / (Ra
+ Rb). Trong mã, phương pháp tỷ lệ này sẽ như thế nào:
đang được dịch, vui lòng đợi..
