Một đại lý học tăng cường tương tác với môi trường trong thời gian rời rạc bước. Tại mỗi thời điểm {displaystyle t} t, các đại lý sẽ nhận được một sự quan sát {displaystyle o_ {t}} o_ {t}, thường bao gồm các phần thưởng {displaystyle r_ {t}} r_ {t}. Nó sau đó chọn một hành động {displaystyle a_ {t}} a_ {t} từ thiết lập các hành động có sẵn, sau đó được gửi tới môi trường. Môi trường di chuyển đến một nhà nước mới {displaystyle s_ {t + 1}} s_ {t + 1} và phần thưởng {displaystyle r_ {t + 1}} r_ {t + 1} gắn liền với quá trình chuyển đổi {displaystyle (s_ {t}, a_ {t}, s_ {t + 1})} (s_ {t}, a_ {t}, s_ {t + 1}) được xác định. Mục tiêu của một đại lý tăng cường việc học là để thu thập các phần thưởng càng nhiều càng tốt. Các đại lý có thể chọn bất kỳ hành động nào như là một chức năng của lịch sử và nó thậm chí có thể ngẫu nhiên lựa chọn hành động của nó.
đang được dịch, vui lòng đợi..