Giới thiệu về thuật toán SoftmaxNếu bạn đã hoàn thành các bài tập cho chương 2, bạn nên đã phát hiện ra rằng cómột vấn đề rõ ràng với các thuật toán epsilon tham lam: nó khám phá tùy chọn hoàn toànngẫu nhiên mà không có bất kỳ mối quan tâm về thành tích của họ. Ví dụ, trong một kịch bản (cuộc gọinó kịch bản A), bạn có thể có hai cánh tay, một trong số đó phần thưởng cho bạn 10% thời gian vàCác phần thưởng bạn 13% thời gian. Trong kịch bản B, hai cánh tay có thể thưởng cho bạn10% thời gian và 99% thời gian. Trong cả hai của những tình huống, xác suất mà cácgiải thuật tham lam Epsilon khám phá cánh tay tồi tệ hơn là giống hệt nhau (đó là epsilon /2), mặc dù kém hơn cánh tay trong kịch bản B là, trong điều kiện tương đối, tồi tệ hơn nhiều so với cáckém hơn cánh tay trong trường hợp A.
đang được dịch, vui lòng đợi..
