Brute force [sửa]
Các cách tiếp cận sức mạnh vũ phu đòi hỏi hai bước sau:
chức năng Giá trị phương pháp tiếp cận [sửa]
chức năng Giá trị phương pháp tiếp cận nỗ lực tìm kiếm một chính sách nhằm tối đa hóa lợi nhuận bằng cách duy trì một tập hợp các ước tính về lợi nhuận kỳ vọng cho một số chính sách (thường là một trong hai " . hiện tại "hay một tối ưu)
những phương pháp này dựa trên lý thuyết về MDPs, nơi tối ưu được định nghĩa trong một cảm giác đó là mạnh hơn so với ở trên một: chính sách A được gọi là tối ưu nếu nó đạt được lợi nhuận kỳ vọng tốt nhất từ bất kỳ trạng thái ban đầu (tức là , phân phối ban đầu không đóng vai trò trong định nghĩa này). Một lần nữa, người ta luôn luôn có thể tìm thấy một chính sách tối ưu giữa các chính sách văn phòng phẩm.
Để xác định tối ưu một cách chính thức, xác định giá trị của một chính sách { displaystyle pi} pi bởi
{ displaystyle V ^ { pi} (s) = E [R | s, pi],} V ^ { pi} (s) = E [R | s, pi],
nơi { displaystyle R} R là viết tắt cho sự trở lại ngẫu nhiên gắn liền với sau { displaystyle pi } pi từ trạng thái ban đầu { displaystyle s} s. Xác định { displaystyle V ^ {*} (s)} V ^ {*} (s) là giá trị tối đa có thể có của { displaystyle V ^ { pi} (s)} V ^ { pi} (s), đó { displaystyle pi} pi được phép thay đổi:
{. displaystyle V ^ {*} (s) = sup giới hạn _ { pi} V ^ { pi} (s)} V ^ {* } (s) = sup giới hạn _ { pi} V ^ { pi} (s).
Một chính sách mà đạt được những giá trị tối ưu trong mỗi tiểu bang được gọi là tối ưu. Rõ ràng, một chính sách tối ưu trong ý thức mạnh mẽ này cũng là tối ưu theo nghĩa là nó tối đa hóa lợi nhuận kỳ vọng { displaystyle rho ^ { pi}} rho ^ { pi}, vì { displaystyle rho ^ { pi} = E [V ^ { pi} (S)]} rho ^ { pi} = E [V ^ { pi} (S)], trong đó { displaystyle S} S là một nhà nước được lấy mẫu ngẫu nhiên từ phân phối { displaystyle mu} mu.
Mặc dù nhà nước-giá trị đủ để xác định tối ưu, nó sẽ chứng minh là hữu ích để xác định hành động giá trị. Với trạng thái { displaystyle s} s, một hành động { displaystyle a} a và một chính sách { displaystyle pi} pi, hành động có giá trị của các cặp { displaystyle (s, a)} (s, một ) thuộc { displaystyle pi} pi được xác định bởi
{ displaystyle Q ^ { pi} (s, a) = E [R | s, a, pi], ,} Q ^ { pi} ( s, a) = E [R | s, a, pi], ,
ở đâu, bây giờ, { displaystyle R} R là viết tắt cho sự trở lại ngẫu nhiên gắn liền với hành động chốt đầu tiên { displaystyle a} một trong trạng thái { displaystyle s} s và sau { displaystyle pi} pi, sau đó.
Nó nổi tiếng đến từ các lý thuyết của MDPs rằng nếu ai đó mang đến cho chúng tôi { displaystyle Q} Q cho một chính sách tối ưu, chúng tôi luôn có thể chọn hành động tối ưu (và do đó hành động một cách tối ưu) bằng cách lựa chọn các hành động với giá trị cao nhất tại mỗi tiểu bang. Các chức năng hành động có giá trị của một chính sách tối ưu như vậy được gọi là chức năng hành động có giá trị tối ưu và được ký hiệu là { displaystyle Q ^ {*}} Q ^ {*}. Tóm lại, các kiến thức về các chức năng hành động có giá trị tối ưu một mình đủ để biết làm thế nào để hoạt động tối ưu.
Giả sử đầy đủ kiến thức của MDP, có hai phương pháp tiếp cận cơ bản để tính toán các chức năng hành động có giá trị tối ưu, giá trị lặp lại và lặp lại chính sách. Cả hai thuật toán tính toán một chuỗi các chức năng { displaystyle Q_ {k}} Q_ {k} ({ displaystyle k = 0,1,2, ldots} k = 0,1,2, ldots) hội tụ đến { displaystyle Q ^ {*}} Q ^ {*}. Việc tính toán các chức năng liên quan đến kỳ vọng máy tính trên toàn bộ không gian trạng thái, đó là không thực tế cho tất cả, nhưng nhỏ nhất (hữu hạn) MDPs, không bao giờ nhớ trường hợp khi MDP là không rõ. Trong phương pháp học tăng cường sự mong đợi được xấp xỉ bằng trung bình đối với các mẫu và một sử dụng kỹ thuật xấp xỉ chức năng để đối phó với sự cần thiết phải đại diện cho chức năng giá trị trên không gian trạng thái hành động lớn.
Phương pháp Monte Carlo [sửa]
Các đơn giản nhất phương pháp Monte Carlo có thể được sử dụng trong một thuật toán bắt chước lặp lại chính sách. Chính sách lặp bao gồm hai bước sau:. Đánh giá chính sách và cải cách chính sách
Các phương pháp Monte Carlo được sử dụng trong các bước đánh giá chính sách. Trong bước này, cho một văn phòng phẩm, chính sách xác định { displaystyle pi} pi, mục đích là để tính toán các giá trị hàm { displaystyle Q ^ { pi} (s, a)} Q ^ { pi} (s , a) (hoặc một xấp xỉ tốt cho họ) cho tất cả các cặp trạng thái hành động { displaystyle (s, a)} (s, a). Giả sử (cho đơn giản) mà MDP là hữu hạn và trong thực tế, một bảng đại diện cho các hành động giá trị phù hợp với bộ nhớ. Hơn nữa, giả định rằng vấn đề là nhiều tập và sau mỗi tập phim một cái mới bắt đầu từ một số trạng thái ban đầu ngẫu nhiên. Sau đó, ước tính giá trị của một cặp trạng thái hành động cho { displaystyle (s, a)} (s, a) có thể được tính bằng cách đơn giản
Đối với mỗi chính sách có thể, lợi nhuận mẫu trong khi sau đó
chọn chính sách với sự lớn nhất dự kiến quay trở lại
Một vấn đề này là các số chính sách có thể rất lớn, hoặc thậm chí vô hạn. Một là phương sai của lợi nhuận có thể lớn, trong đó có trường hợp một số lượng lớn các mẫu sẽ được yêu cầu để đánh giá chính xác sự trở lại của mỗi chính sách.
Những vấn đề này có thể được cải thiện nếu chúng ta giả định một số cấu trúc và có lẽ cho phép các mẫu được tạo ra từ một trong những chính sách để ảnh hưởng đến dự toán làm cho người khác. Hai phương pháp chính để đạt được điều này là chức năng giá trị ước lượng và tìm kiếm chính sách trực tiếp
đang được dịch, vui lòng đợi..
