Abstract. Reinforcement learning po

Abstract. Reinforcement learning policies face the exploration versus exploitation dilemma, i.e. the search for a balance between exploring the environment to ﬁnd proﬁtable actions while taking the empirically best action as often as possible. A popular measure of a policy’s success in addressing this dilemma is the regret, that is the loss due to the fact that the globally optimal policy is not followed all the times. One of the simplest examples of the exploration/exploitation dilemma is the multi-armed bandit problem. Lai and Robbins were the ﬁrst ones to show that the regret for this problem has to grow at least logarithmically in the number of plays. Since then, policies which asymptotically achieve this regret have been devised by Lai and Robbins and many others. In this work we showthattheoptimallogarithmicregretisalsoachievableuniformlyovertime,withsimpleandefﬁcientpolicies, and for all reward distributions with bounded support.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Tóm tắt. Tăng cường học tập chính sách đối mặt với cuộc thám hiểm so với khai thác tiến thoái lưỡng nan, tức là việc tìm kiếm một sự cân bằng giữa khám phá môi trường nhiều proﬁtable hành động trong khi thực hiện hành động tốt nhất empirically thường xuyên càng tốt. Một biện pháp phổ biến của sự thành công của một chính sách tại địa chỉ này tiến thoái lưỡng nan là rất tiếc, đó là sự mất mát do thực tế rằng chính sách toàn cầu tối ưu không theo sau tất cả các lần. Một ví dụ đơn giản nhất của tiến thoái lưỡng nan thăm dò/khai thác là vấn đề đa vũ trang cướp. Lai và Robbins đã là chính những người cho rằng hối tiếc về vấn đề này đã phát triển ít logarithmically trong số các vở kịch. Kể từ đó, chính sách đó tiệm cận đạt được hối tiếc này đã được nghĩ ra bởi Lai và Robbins và nhiều người khác. Trong này làm việc chúng tôi showthattheoptimallogarithmicregretisalsoachievableuniformlyovertime, withsimpleandefﬁcientpolicies, và cho tất cả các bản phân phối phần thưởng với bao bọc hỗ trợ.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Tóm tắt. Chính sách củng cố việc học phải đối mặt với việc thăm dò khai thác so với tiến thoái lưỡng nan, tức là việc tìm kiếm một sự cân bằng giữa khám phá môi trường fi nd pro hành bảng fi trong khi thực hiện hoạt động theo kinh nghiệm tốt nhất là thường xuyên càng tốt. Một biện pháp phổ biến của sự thành công của chính sách trong việc giải quyết tình trạng khó xử này là hối tiếc, đó là sự mất mát do thực tế là chính sách tối ưu trên toàn cầu không được thực hiện tất cả các lần. Một trong những ví dụ đơn giản nhất của tiến thoái lưỡng nan thăm dò / khai thác là vấn đề tên cướp đa vũ trang. Lai và Robbins là những người đầu tiên fi để thấy hối tiếc cho vấn đề này phải tăng trưởng ít nhất loga trong số lượt. Kể từ đó, các chính sách mà tiệm đạt được hối tiếc này đã được nghĩ ra bởi Lai và Robbins và nhiều người khác. Trong công việc chúng tôi này và cho tất cả các bản phân phối phần thưởng với sự hỗ trợ giới hạn.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.