Thuật toán đại học giao thông áp dụng nguyên tắc này cho các tìm kiếm cây Monte-Carlo, bằng cách điều trị mỗi tiểu bang của cây tìm kiếm như là một multiarmedtên cướp, trong đó mỗi hành động tương ứng với một cánh tay của các bandit [10].4 chính sách cây chọn hành động bằng cách sử dụng cácThuật toán UCB1 maximises một sự tự tin trên bị ràng buộc vào giá trị của hành động [18]. Cụ thể, giá trị hành động được tăng cường bởi một tiền thưởng thăm dò là cao nhất cho hiếm khi viếng thăm hành động nhà nước cặp, và chính sách cây chọn hành độnga∗ maximising giá trị tăng cường,
đang được dịch, vui lòng đợi..