Sau khi chúng tôi kéo một cánh tay, chúng tôi nhận được một tín hiệu khen thưởng trở lại từ hệ thống của chúng tôi. (Trong tiếp theo
chương, chúng tôi sẽ mô tả một khuôn khổ thử nghiệm, chúng tôi đã xây dựng mô phỏng các phần thưởng
để chúng tôi có thể gỡ lỗi thuật toán cướp của chúng tôi.) Chúng tôi muốn cập nhật thuật toán của chúng tôi
niềm tin về chất lượng của cánh tay, chúng tôi chỉ chọn bằng cách cung cấp này thưởng cho thông tin.
trong suốt cuốn sách này, tất cả các thuật toán cướp xử lý này bằng cách cung cấp
một chức năng cập nhật mà mất như đối số (1) một đối tượng giải thuật, (2) các số
chỉ số của cánh tay gần đây nhất được lựa chọn và (3) các phần thưởng nhận được từ chọn
cánh tay. Các phương pháp cập nhật sẽ đưa thông tin này và làm cho có liên quan
thay đổi đánh giá của thuật toán của tất cả các vũ khí.
đang được dịch, vui lòng đợi..
