Monte-Carlo mô phỏng là một mô phỏng dựa trên thuật toán tìm kiếm đơn giản để đánh giá hành động của ứng cử viên từ một gốc
s0 nhà nước. Số tiền thu được tìm kiếm bằng cách mô phỏng trò chơi hoàn chỉnh từ s0 cho đến khi chấm dứt, bằng cách sử dụng một mô phỏng chính sách cố định,
ví dụ như chọn hành động thống nhất giữa tất cả các nước đi hợp pháp. Giá trị của mỗi hành động một từ s0, theo ước tính của các
kết quả trung bình của tất cả các mô phỏng bắt đầu với hành động ứng cử viên một.
đang được dịch, vui lòng đợi..