Introducing the Softmax AlgorithmIf

Introducing the Softmax Algorithm
If you’ve completed the exercises for Chapter 2, you should have discovered that there’s
an obvious problem with the epsilon-Greedy algorithm: it explores options completely
at random without any concern about their merits. For example, in one scenario (call
it Scenario A), you might have two arms, one of which rewards you 10% of the time and
the other rewards you 13% of the time. In Scenario B, the two arms might reward you
10% of the time and 99% of the time. In both of these scenarios, the probability that the
epsilon-Greedy algorithm explores the worse arm is exactly the same (it’s epsilon /
2), despite the inferior arm in Scenario B being, in relative terms, much worse than the
inferior arm in Scenario A.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Giới thiệu về thuật toán SoftmaxNếu bạn đã hoàn thành các bài tập cho chương 2, bạn nên đã phát hiện ra rằng cómột vấn đề rõ ràng với các thuật toán epsilon tham lam: nó khám phá tùy chọn hoàn toànngẫu nhiên mà không có bất kỳ mối quan tâm về thành tích của họ. Ví dụ, trong một kịch bản (cuộc gọinó kịch bản A), bạn có thể có hai cánh tay, một trong số đó phần thưởng cho bạn 10% thời gian vàCác phần thưởng bạn 13% thời gian. Trong kịch bản B, hai cánh tay có thể thưởng cho bạn10% thời gian và 99% thời gian. Trong cả hai của những tình huống, xác suất mà cácgiải thuật tham lam Epsilon khám phá cánh tay tồi tệ hơn là giống hệt nhau (đó là epsilon /2), mặc dù kém hơn cánh tay trong kịch bản B là, trong điều kiện tương đối, tồi tệ hơn nhiều so với cáckém hơn cánh tay trong trường hợp A.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Giới thiệu softmax Algorithm
Nếu bạn đã hoàn thành các bài tập cho chương 2, bạn nên đã phát hiện ra rằng có
một vấn đề rõ ràng với các thuật toán epsilon-Greedy: nó khám phá lựa chọn hoàn toàn
ngẫu nhiên mà không bất kỳ mối quan tâm về thành tích của họ. Ví dụ, trong một kịch bản (gọi
nó Kịch bản A), bạn có thể có hai cánh tay, một trong số đó phần thưởng cho bạn 10% thời gian và
các phần thưởng khác bạn 13% thời gian. Trong phương án B, hai cánh tay có thể thưởng cho bạn
10% thời gian và 99% thời gian. Trong cả hai tình huống, xác suất mà các
thuật toán epsilon-tham lam khám phá những cánh tay tồi tệ hơn là giống hệt nhau (đó là epsilon /
2), mặc dù cánh tay kém trong Kịch bản B là, về mặt tương đối, tồi tệ hơn nhiều so với
cánh tay kém trong kịch bản A.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.