nơi zi là kết quả của các mô phỏng thứ i; Ii (s, a) là một chức năng chỉ trở về 1 nếu hành động một đã được chọn trong trạng thái
s trong mô phỏng thứ i, và 0 nếu ngược lại; và N (s, a) =? N (s)
i = 1
Ii (s, a) đếm tổng số các mô phỏng trong đó
hành động một đã được chọn trong trạng thái s.
đang được dịch, vui lòng đợi..
