Brute force [sửa]
Các cách tiếp cận sức mạnh vũ phu đòi hỏi hai bước sau:
Đối với mỗi chính sách có thể, lợi nhuận mẫu trong khi sau đó
Chọn chính sách với sự lớn nhất dự kiến sẽ trở lại
Một vấn đề này được rằng số lượng các chính sách có thể rất lớn, hoặc thậm chí vô hạn. Một là phương sai của lợi nhuận có thể lớn, trong đó có trường hợp một số lượng lớn các mẫu sẽ được yêu cầu để đánh giá chính xác sự trở lại của mỗi chính sách.
Những vấn đề này có thể được cải thiện nếu chúng ta giả định một số cấu trúc và có lẽ cho phép các mẫu được tạo ra từ một trong những chính sách để ảnh hưởng đến dự toán làm cho người khác. Hai phương pháp chính để đạt được điều này là chức năng giá trị ước lượng và tìm kiếm chính sách trực tiếp
đang được dịch, vui lòng đợi..
