Brute force[edit]The brute force ap

Brute force[edit]
The brute force approach entails the following two steps:
Value function approaches[edit]
Value function approaches attempt to find a policy that maximizes the return by maintaining a set of estimates of expected returns for some policy (usually either the "current" or the optimal one).

These methods rely on the theory of MDPs, where optimality is defined in a sense which is stronger than the above one: A policy is called optimal if it achieves the best expected return from any initial state (i.e., initial distributions play no role in this definition). Again, one can always find an optimal policy amongst stationary policies.

To define optimality in a formal manner, define the value of a policy {displaystyle pi } pi by

{displaystyle V^{pi }(s)=E[R|s,pi ],} V^{pi }(s)=E[R|s,pi ],
where {displaystyle R} R stands for the random return associated with following {displaystyle pi } pi from the initial state {displaystyle s} s. Define {displaystyle V^{*}(s)} V^{*}(s) as the maximum possible value of {displaystyle V^{pi }(s)} V^{pi }(s), where {displaystyle pi } pi is allowed to change:

{displaystyle V^{*}(s)=sup limits _{pi }V^{pi }(s).} V^{*}(s)=sup limits _{pi }V^{pi }(s).
A policy which achieves these optimal values in each state is called optimal. Clearly, a policy that is optimal in this strong sense is also optimal in the sense that it maximizes the expected return {displaystyle
ho ^{pi }}
ho ^{pi }, since {displaystyle
ho ^{pi }=E[V^{pi }(S)]}
ho ^{pi }=E[V^{pi }(S)], where {displaystyle S} S is a state randomly sampled from the distribution {displaystyle mu } mu .

Although state-values suffice to define optimality, it will prove to be useful to define action-values. Given a state {displaystyle s} s, an action {displaystyle a} a and a policy {displaystyle pi } pi , the action-value of the pair {displaystyle (s,a)} (s,a) under {displaystyle pi } pi is defined by

{displaystyle Q^{pi }(s,a)=E[R|s,a,pi ],,} Q^{pi }(s,a)=E[R|s,a,pi ],,
where, now, {displaystyle R} R stands for the random return associated with first taking action {displaystyle a} a in state {displaystyle s} s and following {displaystyle pi } pi , thereafter.

It is well-known from the theory of MDPs that if someone gives us {displaystyle Q} Q for an optimal policy, we can always choose optimal actions (and thus act optimally) by simply choosing the action with the highest value at each state. The action-value function of such an optimal policy is called the optimal action-value function and is denoted by {displaystyle Q^{*}} Q^{*}. In summary, the knowledge of the optimal action-value function alone suffices to know how to act optimally.

Assuming full knowledge of the MDP, there are two basic approaches to compute the optimal action-value function, value iteration and policy iteration. Both algorithms compute a sequence of functions {displaystyle Q_{k}} Q_{k} ( {displaystyle k=0,1,2,ldots } k=0,1,2,ldots ) which converge to {displaystyle Q^{*}} Q^{*}. Computing these functions involves computing expectations over the whole state-space, which is impractical for all, but the smallest (finite) MDPs, never mind the case when the MDP is unknown. In reinforcement learning methods the expectations are approximated by averaging over samples and one uses function approximation techniques to cope with the need to represent value functions over large state-action spaces.

Monte Carlo methods[edit]
The simplest Monte Carlo methods can be used in an algorithm that mimics policy iteration. Policy iteration consists of two steps: policy evaluation and policy improvement.

The Monte Carlo methods are used in the policy evaluation step. In this step, given a stationary, deterministic policy {displaystyle pi } pi , the goal is to compute the function values {displaystyle Q^{pi }(s,a)} Q^{pi }(s,a) (or a good approximation to them) for all state-action pairs {displaystyle (s,a)} (s,a). Assume (for simplicity) that the MDP is finite and in fact a table representing the action-values fits into the memory. Further, assume that the problem is episodic and after each episode a new one starts from some random initial state. Then, the estimate of the value of a given state-action pair {displaystyle (s,a)} (s,a) can be computed by simply
For each possible policy, sample returns while following it
Choose the policy with the largest expected return
One problem with this is that the number of policies can be extremely large, or even infinite. Another is that variance of the returns might be large, in which case a large number of samples will be required to accurately estimate the return of each policy.

These problems can be ameliorated if we assume some structure and perhaps allow samples generated from one policy to influence the estimates made for another. The two main approaches for achieving this are value function estimation and direct policy search

These methods rely on the theory of MDPs, where optimality is defined in a sense which is stronger than the above one: A policy is called optimal if it achieves the best expected return from any initial state (i.e., initial distributions play no role in this definition). Again, one can always find an optimal policy amongst stationary policies.

To define optimality in a formal manner, define the value of a policy {displaystyle pi } pi by

{displaystyle V^{pi }(s)=E[R|s,pi ],} V^{pi }(s)=E[R|s,pi ],
where {displaystyle R} R stands for the random return associated with following {displaystyle pi } pi from the initial state {displaystyle s} s. Define {displaystyle V^{*}(s)} V^{*}(s) as the maximum possible value of {displaystyle V^{pi }(s)} V^{pi }(s), where {displaystyle pi } pi is allowed to change:

{displaystyle V^{*}(s)=sup limits _{pi }V^{pi }(s).} V^{*}(s)=sup limits _{pi }V^{pi }(s).
A policy which achieves these optimal values in each state is called optimal. Clearly, a policy that is optimal in this strong sense is also optimal in the sense that it maximizes the expected return {displaystyle 
ho ^{pi }} 
ho ^{pi }, since {displaystyle 
ho ^{pi }=E[V^{pi }(S)]} 
ho ^{pi }=E[V^{pi }(S)], where {displaystyle S} S is a state randomly sampled from the distribution {displaystyle mu } mu .

Although state-values suffice to define optimality, it will prove to be useful to define action-values. Given a state {displaystyle s} s, an action {displaystyle a} a and a policy {displaystyle pi } pi , the action-value of the pair {displaystyle (s,a)} (s,a) under {displaystyle pi } pi is defined by

{displaystyle Q^{pi }(s,a)=E[R|s,a,pi ],,} Q^{pi }(s,a)=E[R|s,a,pi ],,
where, now, {displaystyle R} R stands for the random return associated with first taking action {displaystyle a} a in state {displaystyle s} s and following {displaystyle pi } pi , thereafter.

It is well-known from the theory of MDPs that if someone gives us {displaystyle Q} Q for an optimal policy, we can always choose optimal actions (and thus act optimally) by simply choosing the action with the highest value at each state. The action-value function of such an optimal policy is called the optimal action-value function and is denoted by {displaystyle Q^{*}} Q^{*}. In summary, the knowledge of the optimal action-value function alone suffices to know how to act optimally.

Assuming full knowledge of the MDP, there are two basic approaches to compute the optimal action-value function, value iteration and policy iteration. Both algorithms compute a sequence of functions {displaystyle Q_{k}} Q_{k} ( {displaystyle k=0,1,2,ldots } k=0,1,2,ldots ) which converge to {displaystyle Q^{*}} Q^{*}. Computing these functions involves computing expectations over the whole state-space, which is impractical for all, but the smallest (finite) MDPs, never mind the case when the MDP is unknown. In reinforcement learning methods the expectations are approximated by averaging over samples and one uses function approximation techniques to cope with the need to represent value functions over large state-action spaces.

Monte Carlo methods[edit]
The simplest Monte Carlo methods can be used in an algorithm that mimics policy iteration. Policy iteration consists of two steps: policy evaluation and policy improvement.

The Monte Carlo methods are used in the policy evaluation step. In this step, given a stationary, deterministic policy {displaystyle pi } pi , the goal is to compute the function values {displaystyle Q^{pi }(s,a)} Q^{pi }(s,a) (or a good approximation to them) for all state-action pairs {displaystyle (s,a)} (s,a). Assume (for simplicity) that the MDP is finite and in fact a table representing the action-values fits into the memory. Further, assume that the problem is episodic and after each episode a new one starts from some random initial state. Then, the estimate of the value of a given state-action pair {displaystyle (s,a)} (s,a) can be computed by simply
For each possible policy, sample returns while following it
Choose the policy with the largest expected return
One problem with this is that the number of policies can be extremely large, or even infinite. Another is that variance of the returns might be large, in which case a large number of samples will be required to accurately estimate the return of each policy.

These problems can be ameliorated if we assume some structure and perhaps allow samples generated from one policy to influence the estimates made for another. The two main approaches for achieving this are value function estimation and direct policy search

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Bạo lực [sửa]Các phương pháp bạo lực đòi hỏi hai bước sau đây:Các phương pháp tiếp cận cho các chức năng giá trị [sửa]Chức năng phương pháp tiếp cận cố gắng để tìm thấy một chính sách tối đa hoá lợi nhuận bằng cách duy trì một tập hợp các ước tính của các lợi nhuận dự kiến về một số chính sách có giá trị (thường "hiện tại" hoặc là một tối ưu).Những phương pháp này dựa trên lý thuyết của MDPs, nơi điều được định nghĩa trong một cảm giác mạnh hơn trên một: một chính sách được gọi là tối ưu nếu nó đạt được sự trở lại dự kiến sẽ tốt nhất từ bất kỳ trạng thái ban đầu (tức là, bản phân phối đầu tiên chơi không có vai trò trong định nghĩa này). Một lần nữa, một trong những luôn luôn có thể tìm thấy một chính sách tối ưu giữa cố định chính sách.Để xác định điều một cách chính thức, xác định giá trị của một chính sách {displaystyle pi} pi bởi{displaystyle V ^ {pi} (s) = E [R | s, pi],} V ^ {pi} (s) = E [R | s, pi],nơi {displaystyle R} R là viết tắt của các ngẫu nhiên trở lại liên kết với sau {displaystyle pi} pi từ trạng thái ban đầu {displaystyle s} s. xác định {displaystyle V ^ {} *} V ^ {} * như là giá trị tối đa có thể của {displaystyle V ^ {pi} (s)} V ^ {pi} (s), nơi {displaystyle pi} pi được cho phép để thay đổi:{displaystyle V ^ {} * = sup limits _ {pi} V ^ {pi} (s).} V ^ {} * = sup limits _ {pi} V ^ {pi} (s).Một chính sách mà đạt được những giá trị tối ưu trong mỗi tiểu bang được gọi là tối ưu. Rõ ràng, một chính sách tối ưu trong ý nghĩa mạnh mẽ này cũng là tối ưu trong ý nghĩa nó tối đa hoá lợi nhuận dự kiến {displaystyle
ho ^ {pi}}
ho ^ {pi}, kể từ khi {displaystyle
ho ^ {pi} = E [V ^ {pi} (S)]}
ho ^ {pi} = E [V ^ {pi} (S)], nơi {displaystyle S} S là một tiểu bang ngẫu nhiên lấy mẫu từ phân phối {displaystyle mu} mu.Mặc dù nhà nước-giá trị đủ để xác định điều, nó sẽ chứng minh là hữu ích để xác định giá trị hành động. Đưa ra một nhà nước {displaystyle s} s, một hành động {displaystyle một} một và một chính sách {displaystyle pi} pi, hành động-giá trị của cặp {displaystyle (s, một)} (s, một) dưới {displaystyle pi} pi được định nghĩa bởi{displaystyle Q ^ {pi}(s,a) = E [R | s, a, pi], ,} Q ^ {pi}(s,a) = E [R | s, a, pi], ,ở đâu, bây giờ, {displaystyle R} R là viết tắt của các ngẫu nhiên trở lại liên kết với đầu tiên thực hiện hành động {displaystyle một} một tiểu bang tại {displaystyle s} s và sau {displaystyle pi} pi, sau đó.Nó là nổi tiếng từ các lý thuyết của MDPs rằng nếu ai đó cung cấp cho chúng tôi {displaystyle Q} Q cho một chính sách tối ưu, chúng tôi có thể luôn luôn lựa chọn tối ưu hoạt động (và do đó hành động tối ưu) bằng cách đơn giản chỉ cần chọn các hành động có giá trị cao nhất tại mỗi tiểu bang. Chức năng hành động giá trị của một chính sách tối ưu được gọi là các chức năng tối ưu hành động-giá trị và được kí hiệu bởi {displaystyle Q ^ {*}} Q ^ {*}. Tóm lại, các kiến thức về các chức năng tối ưu giá trị hành động một mình suffices để biết làm thế nào để hành động tối ưu.Giả sử các kiến thức đầy đủ về MDP, có hai phương pháp tiếp cận cơ bản để tính toán các chức năng hành động tối ưu, đáng giá tiền, giá trị lặp đi lặp lại và lặp đi lặp lại chính sách. Cả hai giải thuật tính toán một chuỗi các chức năng {displaystyle Q_ {k}} Q_ {k} ({displaystyle k = 0, 1, 2, ldots} k = 0, 1, 2, ldots) mà hội tụ về {displaystyle Q ^ {*}} Q ^ {*}. Tính toán các chức năng liên quan đến máy tính mong đợi trong toàn bộ nhà nước-không gian, đó là không thực tế cho tất cả, nhưng MDPs (hữu hạn) nhỏ nhất, không bao giờ nhớ những trường hợp khi MDP là không rõ. Tăng cường việc học phương pháp mong đợi được xấp xỉ bằng trung bình trong mẫu và một trong những sử dụng chức năng xấp xỉ kỹ thuật để đối phó với sự cần thiết để đại diện cho các giá trị chức năng trên lớn trạng thái hành động gian.Phương pháp Monte Carlo [sửa]Các phương pháp Monte Carlo đơn giản nhất có thể được sử dụng trong một giải thuật bắt chước chính sách lặp đi lặp lại. Lặp đi lặp lại chính sách bao gồm hai bước: đánh giá chính sách và chính sách cải thiện.Các phương pháp Monte Carlo được sử dụng trong bước thẩm định chính sách. Trong bước này, được đưa ra một văn phòng phẩm, xác định chính sách {displaystyle pi} pi, mục tiêu là để tính toán các giá trị chức năng {displaystyle Q ^ {pi}(s,a)} Q ^ {pi}(s,a) (hoặc một xấp xỉ tốt cho họ) cho tất cả hành động nhà nước đôi {displaystyle (s, một)} (s, một). Giả sử (để đơn giản) MDP là hữu hạn và trong thực tế một bàn đại diện cho các giá trị hành động phù hợp với bộ nhớ. Hơn nữa, cho rằng vấn đề là episodic và sau mỗi tập phim mới bắt đầu từ một số trạng thái ban đầu ngẫu nhiên. Sau đó, dân số ước tính giá trị của một cặp nhà nước hành động nhất định {displaystyle (s, một)} (s, một) có thể được tính bằng cách đơn giảnĐối với mỗi chính sách có thể, mẫu trở về trong khi sau nóChọn chính sách này với sự trở lại dự kiến lớn nhấtMột trong những vấn đề này là số lượng các chính sách có thể được rất lớn, hoặc thậm chí là vô hạn. Một là phương sai của trả lại có thể là lớn, trong trường hợp một số lượng lớn các mẫu sẽ được yêu cầu chính xác ước tính sự trở lại của mỗi chính sách.Những vấn đề này có thể được ameliorated nếu chúng ta giả định một số cấu trúc và có lẽ cho phép mẫu được tạo ra từ một chính sách ảnh hưởng đến các ước tính được thực hiện cho người khác. Hai phương pháp chính để đạt được điều này là giá trị hàm ước lượng và tìm kiếm trực tiếp chính sách

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Brute force [sửa]
Các cách tiếp cận sức mạnh vũ phu đòi hỏi hai bước sau:
chức năng Giá trị phương pháp tiếp cận [sửa]
chức năng Giá trị phương pháp tiếp cận nỗ lực tìm kiếm một chính sách nhằm tối đa hóa lợi nhuận bằng cách duy trì một tập hợp các ước tính về lợi nhuận kỳ vọng cho một số chính sách (thường là một trong hai " . hiện tại "hay một tối ưu)

những phương pháp này dựa trên lý thuyết về MDPs, nơi tối ưu được định nghĩa trong một cảm giác đó là mạnh hơn so với ở trên một: chính sách A được gọi là tối ưu nếu nó đạt được lợi nhuận kỳ vọng tốt nhất từ bất kỳ trạng thái ban đầu (tức là , phân phối ban đầu không đóng vai trò trong định nghĩa này). Một lần nữa, người ta luôn luôn có thể tìm thấy một chính sách tối ưu giữa các chính sách văn phòng phẩm.

Để xác định tối ưu một cách chính thức, xác định giá trị của một chính sách { displaystyle pi} pi bởi

{ displaystyle V ^ { pi} (s) = E [R | s, pi],} V ^ { pi} (s) = E [R | s, pi],
nơi { displaystyle R} R là viết tắt cho sự trở lại ngẫu nhiên gắn liền với sau { displaystyle pi } pi từ trạng thái ban đầu { displaystyle s} s. Xác định { displaystyle V ^ {*} (s)} V ^ {*} (s) là giá trị tối đa có thể có của { displaystyle V ^ { pi} (s)} V ^ { pi} (s), đó { displaystyle pi} pi được phép thay đổi:

{. displaystyle V ^ {*} (s) = sup giới hạn _ { pi} V ^ { pi} (s)} V ^ {* } (s) = sup giới hạn _ { pi} V ^ { pi} (s).
Một chính sách mà đạt được những giá trị tối ưu trong mỗi tiểu bang được gọi là tối ưu. Rõ ràng, một chính sách tối ưu trong ý thức mạnh mẽ này cũng là tối ưu theo nghĩa là nó tối đa hóa lợi nhuận kỳ vọng { displaystyle rho ^ { pi}} rho ^ { pi}, vì { displaystyle rho ^ { pi} = E [V ^ { pi} (S)]} rho ^ { pi} = E [V ^ { pi} (S)], trong đó { displaystyle S} S là một nhà nước được lấy mẫu ngẫu nhiên từ phân phối { displaystyle mu} mu.

Mặc dù nhà nước-giá trị đủ để xác định tối ưu, nó sẽ chứng minh là hữu ích để xác định hành động giá trị. Với trạng thái { displaystyle s} s, một hành động { displaystyle a} a và một chính sách { displaystyle pi} pi, hành động có giá trị của các cặp { displaystyle (s, a)} (s, một ) thuộc { displaystyle pi} pi được xác định bởi

{ displaystyle Q ^ { pi} (s, a) = E [R | s, a, pi], ,} Q ^ { pi} ( s, a) = E [R | s, a, pi], ,
ở đâu, bây giờ, { displaystyle R} R là viết tắt cho sự trở lại ngẫu nhiên gắn liền với hành động chốt đầu tiên { displaystyle a} một trong trạng thái { displaystyle s} s và sau { displaystyle pi} pi, sau đó.

Nó nổi tiếng đến từ các lý thuyết của MDPs rằng nếu ai đó mang đến cho chúng tôi { displaystyle Q} Q cho một chính sách tối ưu, chúng tôi luôn có thể chọn hành động tối ưu (và do đó hành động một cách tối ưu) bằng cách lựa chọn các hành động với giá trị cao nhất tại mỗi tiểu bang. Các chức năng hành động có giá trị của một chính sách tối ưu như vậy được gọi là chức năng hành động có giá trị tối ưu và được ký hiệu là { displaystyle Q ^ {*}} Q ^ {*}. Tóm lại, các kiến thức về các chức năng hành động có giá trị tối ưu một mình đủ để biết làm thế nào để hoạt động tối ưu.

Giả sử đầy đủ kiến thức của MDP, có hai phương pháp tiếp cận cơ bản để tính toán các chức năng hành động có giá trị tối ưu, giá trị lặp lại và lặp lại chính sách. Cả hai thuật toán tính toán một chuỗi các chức năng { displaystyle Q_ {k}} Q_ {k} ({ displaystyle k = 0,1,2, ldots} k = 0,1,2, ldots) hội tụ đến { displaystyle Q ^ {*}} Q ^ {*}. Việc tính toán các chức năng liên quan đến kỳ vọng máy tính trên toàn bộ không gian trạng thái, đó là không thực tế cho tất cả, nhưng nhỏ nhất (hữu hạn) MDPs, không bao giờ nhớ trường hợp khi MDP là không rõ. Trong phương pháp học tăng cường sự mong đợi được xấp xỉ bằng trung bình đối với các mẫu và một sử dụng kỹ thuật xấp xỉ chức năng để đối phó với sự cần thiết phải đại diện cho chức năng giá trị trên không gian trạng thái hành động lớn.

Phương pháp Monte Carlo [sửa]
Các đơn giản nhất phương pháp Monte Carlo có thể được sử dụng trong một thuật toán bắt chước lặp lại chính sách. Chính sách lặp bao gồm hai bước sau:. Đánh giá chính sách và cải cách chính sách

Các phương pháp Monte Carlo được sử dụng trong các bước đánh giá chính sách. Trong bước này, cho một văn phòng phẩm, chính sách xác định { displaystyle pi} pi, mục đích là để tính toán các giá trị hàm { displaystyle Q ^ { pi} (s, a)} Q ^ { pi} (s , a) (hoặc một xấp xỉ tốt cho họ) cho tất cả các cặp trạng thái hành động { displaystyle (s, a)} (s, a). Giả sử (cho đơn giản) mà MDP là hữu hạn và trong thực tế, một bảng đại diện cho các hành động giá trị phù hợp với bộ nhớ. Hơn nữa, giả định rằng vấn đề là nhiều tập và sau mỗi tập phim một cái mới bắt đầu từ một số trạng thái ban đầu ngẫu nhiên. Sau đó, ước tính giá trị của một cặp trạng thái hành động cho { displaystyle (s, a)} (s, a) có thể được tính bằng cách đơn giản
Đối với mỗi chính sách có thể, lợi nhuận mẫu trong khi sau đó
chọn chính sách với sự lớn nhất dự kiến quay trở lại
Một vấn đề này là các số chính sách có thể rất lớn, hoặc thậm chí vô hạn. Một là phương sai của lợi nhuận có thể lớn, trong đó có trường hợp một số lượng lớn các mẫu sẽ được yêu cầu để đánh giá chính xác sự trở lại của mỗi chính sách.

Những vấn đề này có thể được cải thiện nếu chúng ta giả định một số cấu trúc và có lẽ cho phép các mẫu được tạo ra từ một trong những chính sách để ảnh hưởng đến dự toán làm cho người khác. Hai phương pháp chính để đạt được điều này là chức năng giá trị ước lượng và tìm kiếm chính sách trực tiếp

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.