Tiêu chí tối ưu [sửa]
Để đơn giản, giả định cho một thời điểm mà vấn đề nghiên cứu là tập, một kết thúc tập phim khi một số trạng thái thiết bị đầu cuối là đạt. Giả sử thêm rằng không có vấn đề gì trình hành động của các đại lý mất, chấm dứt là không thể tránh khỏi. Dưới một số điều kiện đều đặn nhẹ thêm kỳ vọng của tổng phần thưởng sau đó được xác định rõ, đối với bất kỳ chính sách và bất kỳ phân phối ban đầu trên các tiểu bang. Ở đây, một chính sách đề cập đến một bản đồ mà chỉ định một số phân bố xác suất trên các hành động cho tất cả các lịch sử có thể.
Cho một phân phối ban đầu cố định { displaystyle mu} mu, chúng tôi như vậy, có thể gán lợi nhuận kỳ vọng { displaystyle rho ^ { pi}} rho ^ { pi} để chính sách { displaystyle pi} pi:
{ displaystyle rho ^ { pi} = E [R | pi],} rho ^ { pi} = E [R | pi],
nơi các biến ngẫu nhiên { displaystyle R} R biểu thị sự trở lại và được xác định bởi
{ displaystyle R = sum _ {t = 0} ^ {N-1} r_ {t + 1}, } R = sum _ {t = 0} ^ {N-1} r_ {t + 1},
nơi { displaystyle r_ {t + 1}} r_ {t + 1} là phần thưởng nhận được sau khi { displaystyle t} chuyển t-thứ, tình trạng ban đầu được lấy mẫu ngẫu nhiên từ { displaystyle mu} mu và hành động được lựa chọn bởi chính sách { displaystyle pi} pi. Ở đây, { displaystyle N} N là (ngẫu nhiên) thời gian khi một trạng thái thiết bị đầu cuối được đạt tới, tức là, thời gian khi tập phim kết thúc.
Trong trường hợp của các vấn đề không nhiều tập sự trở lại thường được giảm giá,
{ displaystyle R = sum _ {t = 0} ^ { infty} gamma ^ {t} r_ {t + 1},} R = sum _ {t = 0} ^ { infty} gamma ^ {t} r_ {t 1},
làm phát sinh các tiêu chí thưởng chiết khấu tổng dự kiến. Dưới đây { displaystyle 0 leq gamma leq 1} 0 leq gamma leq 1 là giảm yếu tố được gọi là. Kể từ khi trở lại chưa được chiết khấu là một trường hợp đặc biệt của sự trở lại giảm giá, từ bây giờ, chúng tôi sẽ giả định chiết khấu. Mặc dù điều này có vẻ đủ ngây thơ, chiết khấu là trên thực tế vấn đề nếu ai quan tâm về hiệu suất trực tuyến. Điều này là do chiết khấu làm cho thời gian ban đầu bước quan trọng hơn. Kể từ khi một đại lý học có thể có những sai sót trong vài bước đầu tiên sau "cuộc sống" của nó bắt đầu, không có thuật toán học không hiểu rõ có thể đạt được hiệu suất gần như tối ưu dưới chiết khấu ngay cả khi các lớp học của môi trường là giới hạn cho các MDPs hữu hạn. (Điều này không có nghĩa rằng mặc dù, nếu có đủ thời gian, một nhân viên học tập không thể tìm cách hành động gần như tối ưu, nếu thời gian đã được khởi động lại.)
đang được dịch, vui lòng đợi..
