A reinforcement learning agent inte

A reinforcement learning agent interacts with its environment in discrete time steps. At each time {displaystyle t} t, the agent receives an observation {displaystyle o_{t}} o_{t}, which typically includes the reward {displaystyle r_{t}} r_{t}. It then chooses an action {displaystyle a_{t}} a_{t} from the set of actions available, which is subsequently sent to the environment. The environment moves to a new state {displaystyle s_{t+1}} s_{t+1} and the reward {displaystyle r_{t+1}} r_{t+1} associated with the transition {displaystyle (s_{t},a_{t},s_{t+1})} (s_{t},a_{t},s_{t+1}) is determined. The goal of a reinforcement learning agent is to collect as much reward as possible. The agent can choose any action as a function of the history and it can even randomize its action selection.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Một đại lý học tăng cường tương tác với môi trường trong thời gian rời rạc bước. Tại mỗi thời điểm {displaystyle t} t, các đại lý sẽ nhận được một sự quan sát {displaystyle o_ {t}} o_ {t}, thường bao gồm các phần thưởng {displaystyle r_ {t}} r_ {t}. Nó sau đó chọn một hành động {displaystyle a_ {t}} a_ {t} từ thiết lập các hành động có sẵn, sau đó được gửi tới môi trường. Môi trường di chuyển đến một nhà nước mới {displaystyle s_ {t + 1}} s_ {t + 1} và phần thưởng {displaystyle r_ {t + 1}} r_ {t + 1} gắn liền với quá trình chuyển đổi {displaystyle (s_ {t}, a_ {t}, s_ {t + 1})} (s_ {t}, a_ {t}, s_ {t + 1}) được xác định. Mục tiêu của một đại lý tăng cường việc học là để thu thập các phần thưởng càng nhiều càng tốt. Các đại lý có thể chọn bất kỳ hành động nào như là một chức năng của lịch sử và nó thậm chí có thể ngẫu nhiên lựa chọn hành động của nó.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Một đại lý học tăng cường tương tác với môi trường của nó trong các bước thời gian rời rạc. Tại mỗi thời gian { displaystyle t} t, đại lý nhận được một sự quan sát { displaystyle o_ {t}} o_ {t}, mà thường bao gồm các phần thưởng { displaystyle r_ {t}} r_ {t}. Sau đó chọn một hành động { displaystyle A_ {t}} A_ {t} từ tập các hành động có sẵn, sau đó được gửi đến môi trường. Các môi trường chuyển sang một trạng thái mới { displaystyle s_ {t + 1}} s_ {t + 1} và phần thưởng { displaystyle r_ {t + 1}} r_ {t + 1} liên kết với quá trình chuyển đổi { displaystyle ( s_ {t}, A_ {t}, s_ {t + 1})} (s_ {t}, A_ {t}, s_ {t + 1}) được xác định. Mục tiêu của một đại lý học tăng cường là để thu thập càng nhiều phần thưởng càng tốt. Các đại lý có thể chọn bất kỳ hành động như một chức năng của lịch sử và nó thậm chí có thể ngẫu nhiên lựa chọn hành động của mình.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.