Criterion of optimality[edit]For simplicity, assume for a moment that  dịch - Criterion of optimality[edit]For simplicity, assume for a moment that  Việt làm thế nào để nói

Criterion of optimality[edit]For si

Criterion of optimality[edit]
For simplicity, assume for a moment that the problem studied is episodic, an episode ending when some terminal state is reached. Assume further that no matter what course of actions the agent takes, termination is inevitable. Under some additional mild regularity conditions the expectation of the total reward is then well-defined, for any policy and any initial distribution over the states. Here, a policy refers to a mapping that assigns some probability distribution over the actions to all possible histories.

Given a fixed initial distribution {displaystyle mu } mu , we can thus assign the expected return {displaystyle
ho ^{pi }}
ho ^{pi } to policy {displaystyle pi } pi :

{displaystyle
ho ^{pi }=E[R|pi ],}
ho ^{pi }=E[R|pi ],
where the random variable {displaystyle R} R denotes the return and is defined by

{displaystyle R=sum _{t=0}^{N-1}r_{t+1},} R=sum _{t=0}^{N-1}r_{t+1},
where {displaystyle r_{t+1}} r_{t+1} is the reward received after the {displaystyle t} t-th transition, the initial state is sampled at random from {displaystyle mu } mu and actions are selected by policy {displaystyle pi } pi . Here, {displaystyle N} N denotes the (random) time when a terminal state is reached, i.e., the time when the episode terminates.

In the case of non-episodic problems the return is often discounted,

{displaystyle R=sum _{t=0}^{infty }gamma ^{t}r_{t+1},} R=sum _{t=0}^{infty }gamma ^{t}r_{t+1},
giving rise to the total expected discounted reward criterion. Here {displaystyle 0leq gamma leq 1} 0leq gamma leq 1 is the so-called discount-factor. Since the undiscounted return is a special case of the discounted return, from now on we will assume discounting. Although this looks innocent enough, discounting is in fact problematic if one cares about online performance. This is because discounting makes the initial time steps more important. Since a learning agent is likely to make mistakes during the first few steps after its "life" starts, no uninformed learning algorithm can achieve near-optimal performance under discounting even if the class of environments is restricted to that of finite MDPs. (This does not mean though that, given enough time, a learning agent cannot figure how to act near-optimally, if time was restarted.)
0/5000
Từ: -
Sang: -
Kết quả (Việt) 1: [Sao chép]
Sao chép!
Tiêu chí của điều [sửa]Để đơn giản, giả sử cho một thời điểm mà các vấn đề nghiên cứu là episodic, một tập phim kết thúc khi đạt được một số trạng thái thiết bị đầu cuối. Cho biết thêm rằng không có vấn đề gì khóa học của hành động đại lý mất, chấm dứt là không thể tránh khỏi. Một số điều kiện bổ sung đều đặn nhẹ những kỳ vọng của phần thưởng tất cả rồi cũng xác định, cho bất kỳ chính sách và bất kỳ phân phối đầu tiên qua các kỳ. Ở đây, một chính sách đề cập đến một bản đồ mà gán một số phân bố xác suất qua các hành động để tất cả lịch sử có thể.Đưa ra một phân phối ban đầu cố định {displaystyle mu} mu, chúng tôi như vậy có thể gán cho sự trở lại dự kiến {displaystyle
ho ^ {pi}}
ho ^ {pi} để chính sách {displaystyle pi} pi:{displaystyle
ho ^ {pi} = E [R | pi],}
ho ^ {pi} = E [R | pi],nơi biến ngẫu nhiên {displaystyle R} R biểu thị sự quay trở lại và được định nghĩa bởi{displaystyle R = sum _ {t = 0} ^ {N-1} r_ {t + 1}} R = sum _ {t = 0} ^ {N-1} r_ {t + 1},nơi {displaystyle r_ {t + 1}} r_ {t + 1} phần thưởng nhận được sau khi quá trình chuyển đổi t-th {displaystyle t}, trạng thái ban đầu lấy mẫu ngẫu nhiên từ {displaystyle mu} mu và hành động được lựa chọn bởi chính sách {displaystyle pi} pi. Ở đây, {displaystyle N} N là bắt thời gian (ngẫu nhiên) khi tình trạng thiết bị đầu cuối được đạt tới, tức là, thời gian khi chương trình kết thúc.Trong trường hợp không episodic vấn đề trở lại thường xuyên được giảm giá,{displaystyle R = sum _ {t = 0} ^ {infty} gamma ^ {t} r_ {t + 1}} R = sum _ {t = 0} ^ {infty} gamma ^ {t} r_ {t + 1},làm tăng tổng số dự kiến sẽ giảm giá thưởng tiêu chuẩn. Dưới đây {displaystyle 0leq gamma leq 1} 0leq gamma leq 1 là các yếu tố giảm giá như vậy gọi là. Kể từ khi trở lại undiscounted là một trường hợp đặc biệt của trở lại giảm giá, từ nay trên chúng tôi sẽ giả định chiết khấu. Mặc dù điều này có vẻ vô tội đủ, chiết khấu là trong thực tế vấn đề nếu một trong những quan tâm về hoạt động trực tuyến. Điều này là do chiết khấu làm cho thời gian ban đầu bước quan trọng. Kể từ khi một đại lý học có khả năng để làm cho những sai lầm trong vài bước đầu tiên sau khi bắt đầu cuộc sống của mình"", không có thuật toán học không hiểu rõ có thể đạt được hiệu suất gần tối ưu theo chiết khấu ngay cả khi các lớp học của môi trường là giới hạn của hữu hạn MDPs. (điều này có nghĩa là mặc dù rằng, được đưa ra đủ thời gian, một đại lý học không thể làm thế nào để hành động gần-tối ưu, nếu thời gian đã được khởi động lại.)
đang được dịch, vui lòng đợi..
Kết quả (Việt) 2:[Sao chép]
Sao chép!
Tiêu chí tối ưu [sửa]
Để đơn giản, giả định cho một thời điểm mà vấn đề nghiên cứu là tập, một kết thúc tập phim khi một số trạng thái thiết bị đầu cuối là đạt. Giả sử thêm rằng không có vấn đề gì trình hành động của các đại lý mất, chấm dứt là không thể tránh khỏi. Dưới một số điều kiện đều đặn nhẹ thêm kỳ vọng của tổng phần thưởng sau đó được xác định rõ, đối với bất kỳ chính sách và bất kỳ phân phối ban đầu trên các tiểu bang. Ở đây, một chính sách đề cập đến một bản đồ mà chỉ định một số phân bố xác suất trên các hành động cho tất cả các lịch sử có thể.

Cho một phân phối ban đầu cố định { displaystyle mu} mu, chúng tôi như vậy, có thể gán lợi nhuận kỳ vọng { displaystyle rho ^ { pi}} rho ^ { pi} để chính sách { displaystyle pi} pi:

{ displaystyle rho ^ { pi} = E [R | pi],} rho ^ { pi} = E [R | pi],
nơi các biến ngẫu nhiên { displaystyle R} R biểu thị sự trở lại và được xác định bởi

{ displaystyle R = sum _ {t = 0} ^ {N-1} r_ {t + 1}, } R = sum _ {t = 0} ^ {N-1} r_ {t + 1},
nơi { displaystyle r_ {t + 1}} r_ {t + 1} là phần thưởng nhận được sau khi { displaystyle t} chuyển t-thứ, tình trạng ban đầu được lấy mẫu ngẫu nhiên từ { displaystyle mu} mu và hành động được lựa chọn bởi chính sách { displaystyle pi} pi. Ở đây, { displaystyle N} N là (ngẫu nhiên) thời gian khi một trạng thái thiết bị đầu cuối được đạt tới, tức là, thời gian khi tập phim kết thúc.

Trong trường hợp của các vấn đề không nhiều tập sự trở lại thường được giảm giá,

{ displaystyle R = sum _ {t = 0} ^ { infty} gamma ^ {t} r_ {t + 1},} R = sum _ {t = 0} ^ { infty} gamma ^ {t} r_ {t 1},
làm phát sinh các tiêu chí thưởng chiết khấu tổng dự kiến. Dưới đây { displaystyle 0 leq gamma leq 1} 0 leq gamma leq 1 là giảm yếu tố được gọi là. Kể từ khi trở lại chưa được chiết khấu là một trường hợp đặc biệt của sự trở lại giảm giá, từ bây giờ, chúng tôi sẽ giả định chiết khấu. Mặc dù điều này có vẻ đủ ngây thơ, chiết khấu là trên thực tế vấn đề nếu ai quan tâm về hiệu suất trực tuyến. Điều này là do chiết khấu làm cho thời gian ban đầu bước quan trọng hơn. Kể từ khi một đại lý học có thể có những sai sót trong vài bước đầu tiên sau "cuộc sống" của nó bắt đầu, không có thuật toán học không hiểu rõ có thể đạt được hiệu suất gần như tối ưu dưới chiết khấu ngay cả khi các lớp học của môi trường là giới hạn cho các MDPs hữu hạn. (Điều này không có nghĩa rằng mặc dù, nếu có đủ thời gian, một nhân viên học tập không thể tìm cách hành động gần như tối ưu, nếu thời gian đã được khởi động lại.)
đang được dịch, vui lòng đợi..
 
Các ngôn ngữ khác
Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.

Copyright ©2025 I Love Translation. All reserved.

E-mail: