Mỗi tiểu bang và hành động trong cây tìm kiếm được đánh giá bằng kết quả trung bình của nó trong quá trình mô phỏng. Sau mỗi mô phỏng
s0, a0, s1, a1,. . . , ST với kết quả z, mỗi nút trong cây tìm kiếm, {n (st) | st ∈ T}, cập nhật tính của nó, và cập nhật hành động của mình
giá trị Q (st, ở) với giá trị MC mới (Eq (3). ). Bản cập nhật này cũng có thể được thực hiện từng bước, mà không xem xét lại
mô phỏng trước, bằng cách tăng số lượng và cập nhật các giá trị hướng tới z quả.
đang được dịch, vui lòng đợi..
