tìm thấy một số vấn đề mang lại trên các mô hình Markov, chứng minh vấn đề hội tụ, chứng minh có giải pháp tối ưu, sau đó sử dụng các thuật toán Q-learning để giải quyết, lập trình.
Ví dụ:
- Vấn đề xếp hàng (N đại lý).
- Các vấn đề của nhiều đối thủ trò chơi.
đang được dịch, vui lòng đợi..