Hơn nữa,xu hướng giá trị gốc, E [Q (s0, một) − Q ∗(S0,a)], là O(log(n)/n), và khả năng của việc lựa chọn một hành động suboptimal,Quan hệ công chúng (argmaxa∈A Q (s0, một) = argmaxa∈A Q ∗(S0,a)), hội tụ về không ở một tỷ lệ đa thức.
đang được dịch, vui lòng đợi..
