Thuật toán đại học giao thông áp dụng nguyên tắc này cho các tìm kiếm cây Monte-Carlo, bằng cách điều trị mỗi tiểu bang của cây tìm kiếm như là một multiarmedtên cướp, trong đó mỗi hành động tương ứng với một cánh tay của các bandit [10].4 chính sách cây chọn hành động bằng cách sử dụng cácThuật toán UCB1 maximises một sự tự tin trên bị ràng buộc vào giá trị của hành động [18]. Cụ thể, giá trị hành động là
đang được dịch, vui lòng đợi..