Cắt tỉa Progressive là một kỹ thuật trong đó di chuyển kém hơn về mặt thống kê được lấy ra từ việc xem xét [34].
2. Heuristic mọi động thái-as-đầu tiên, mô tả ở trên.
3. Heuristic nhiệt độ sử dụng một chính sách mô phỏng softmax thiên vị di chuyển ngẫu nhiên đối với việc đánh giá mạnh.
Các chính sách softmax chọn hành động với một xác suất π (s, a) = EQ (s, a) / τ?
b∈legal EQ (s, b ) / τ, τ là nơi có nhiệt độ không đổi
tham số kiểm soát mức độ tổng thể của randomness.11
4. Việc tăng cường minimax xây dựng một cây tìm kiếm đầy đủ chiều rộng, và phân biệt các nút của cây tìm kiếm bởi
Monte-Carlo mô phỏng. Cải tiến tìm kiếm chọn lọc cũng đã cố gắng [35].
đang được dịch, vui lòng đợi..
