Monte-Carlo mô phỏng cung cấp một phương pháp đơn giản để ước tính giá trị π gốc Q (s0, a). N (s) trò chơi hoàn chỉnh được
mô phỏng bằng cách tự chơi với π chính sách từ nhà nước s. Giá trị Monte-Carlo (MC giá trị) Q (s, a) là kết quả trung bình của tất cả các
mô phỏng trong đó hành động một đã được chọn trong trạng thái s,
đang được dịch, vui lòng đợi..
