Monte-Carlo cây tìm (MCTS) sử dụng Monte-Carlo mô phỏng để đánh giá các node của một cây tìm kiếm [1]. Các giá trị trong cây tìm kiếm sau đó được sử dụng để chọn hành động tốt nhất trong thời gian tiếp theo mô phỏng. Monte-Carlo cây tìm kiếm là tuần tựtốt nhất đầu tiên: nó chọn con tốt nhất ở mỗi bước của mô phỏng. Điều này cho phép tìm kiếm để liên tục refocus sự chú ý của nó,mỗi mô phỏng, trên khu vực giá trị cao nhất của không gian trạng thái. Khi cây tìm kiếm phát triển lớn hơn, các giá trị của các nútgần đúng giá trị minimax, và chính sách mô phỏng xấp xỉ minimax chính sách.
đang được dịch, vui lòng đợi..