Trong hình thức cơ bản nhất của nó, Monte-Carlo mô phỏng chỉ được sử dụng để đánh giá hành động, nhưng không phải để cải thiện các chính sách mô phỏng.
Tuy nhiên, các thuật toán cơ bản có thể được mở rộng bằng việc tiếp tục ưu các hành động thành công nhất, hoặc bằng việc tiếp tục
cắt tỉa đi những hành động thành công nhất
đang được dịch, vui lòng đợi..