Abstract. Reinforcement learning policies face the exploration versus  dịch - Abstract. Reinforcement learning policies face the exploration versus  Việt làm thế nào để nói

Abstract. Reinforcement learning po

Abstract. Reinforcement learning policies face the exploration versus exploitation dilemma, i.e. the search for a balance between exploring the environment to find profitable actions while taking the empirically best action as often as possible. A popular measure of a policy’s success in addressing this dilemma is the regret, that is the loss due to the fact that the globally optimal policy is not followed all the times. One of the simplest examples of the exploration/exploitation dilemma is the multi-armed bandit problem. Lai and Robbins were the first ones to show that the regret for this problem has to grow at least logarithmically in the number of plays. Since then, policies which asymptotically achieve this regret have been devised by Lai and Robbins and many others. In this work we showthattheoptimallogarithmicregretisalsoachievableuniformlyovertime,withsimpleandefficientpolicies, and for all reward distributions with bounded support.
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
Abstract. Reinforcement learning policies face the exploration versus exploitation dilemma, i.e. the search for a balance between exploring the environment to find profitable actions while taking the empirically best action as often as possible. A popular measure of a policy’s success in addressing this dilemma is the regret, that is the loss due to the fact that the globally optimal policy is not followed all the times. One of the simplest examples of the exploration/exploitation dilemma is the multi-armed bandit problem. Lai and Robbins were the first ones to show that the regret for this problem has to grow at least logarithmically in the number of plays. Since then, policies which asymptotically achieve this regret have been devised by Lai and Robbins and many others. In this work we showthattheoptimallogarithmicregretisalsoachievableuniformlyovertime,withsimpleandefficientpolicies, and for all reward distributions with bounded support.
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
Tóm tắt. Chính sách củng cố việc học phải đối mặt với việc thăm dò khai thác so với tiến thoái lưỡng nan, tức là việc tìm kiếm một sự cân bằng giữa khám phá môi trường fi nd pro hành bảng fi trong khi thực hiện hoạt động theo kinh nghiệm tốt nhất là thường xuyên càng tốt. Một biện pháp phổ biến của sự thành công của chính sách trong việc giải quyết tình trạng khó xử này là hối tiếc, đó là sự mất mát do thực tế là chính sách tối ưu trên toàn cầu không được thực hiện tất cả các lần. Một trong những ví dụ đơn giản nhất của tiến thoái lưỡng nan thăm dò / khai thác là vấn đề tên cướp đa vũ trang. Lai và Robbins là những người đầu tiên fi để thấy hối tiếc cho vấn đề này phải tăng trưởng ít nhất loga trong số lượt. Kể từ đó, các chính sách mà tiệm đạt được hối tiếc này đã được nghĩ ra bởi Lai và Robbins và nhiều người khác. Trong công việc chúng tôi này và cho tất cả các bản phân phối phần thưởng với sự hỗ trợ giới hạn.
đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2025 I Love Translation. All reserved.

E-mail: