Tóm tắt. Tăng cường học tập chính sách đối mặt với cuộc thám hiểm so với khai thác tiến thoái lưỡng nan, tức là việc tìm kiếm một sự cân bằng giữa khám phá môi trường nhiều profitable hành động trong khi thực hiện hành động tốt nhất empirically thường xuyên càng tốt. Một biện pháp phổ biến của sự thành công của một chính sách tại địa chỉ này tiến thoái lưỡng nan là rất tiếc, đó là sự mất mát do thực tế rằng chính sách toàn cầu tối ưu không theo sau tất cả các lần. Một ví dụ đơn giản nhất của tiến thoái lưỡng nan thăm dò/khai thác là vấn đề đa vũ trang cướp. Lai và Robbins đã là chính những người cho rằng hối tiếc về vấn đề này đã phát triển ít logarithmically trong số các vở kịch. Kể từ đó, chính sách đó tiệm cận đạt được hối tiếc này đã được nghĩ ra bởi Lai và Robbins và nhiều người khác. Trong này làm việc chúng tôi showthattheoptimallogarithmicregretisalsoachievableuniformlyovertime, withsimpleandefficientpolicies, và cho tất cả các bản phân phối phần thưởng với bao bọc hỗ trợ.
đang được dịch, vui lòng đợi..
