After we pull an arm, we get a rewa

After we pull an arm, we get a reward signal back from our system. (In the next
chapter, we’ll describe a testing framework we’ve built that simulates these rewards
so that we can debug our bandit algorithms.) We want to update our algorithm’s
beliefs about the quality of the arm we just chose by providing this reward information.
Throughout this book, all of the bandit algorithms handle this by providing
an update function that takes as arguments (1) an algorithm object, (2) the numeric
index of the most recently chosen arm and (3) the reward received from choosing
that arm. The update method will take this information and make the relevant
changes to the algorithm’s evaluation of all of the arms.

0/5000

Từ: -

Sang: -

Kết quả (Việt) 1: [Sao chép]

Sao chép!

Sau khi chúng tôi kéo một cánh tay, chúng tôi nhận được một tín hiệu khen thưởng trở lại từ hệ thống của chúng tôi. (Trong kế tiếpchương, chúng tôi sẽ mô tả một khuôn khổ thử nghiệm chúng tôi đã xây dựng mô phỏng những phần thưởngdo đó chúng tôi có thể gỡ lỗi các thuật toán cướp của chúng tôi.) Chúng tôi muốn Cập Nhật thuật toán của chúng tôiniềm tin về chất lượng của cánh tay chúng tôi chỉ chọn bằng cách cung cấp thông tin phần thưởng này.Trong cuốn sách này, tất cả các tên cướp các thuật toán xử lý này bằng cách cung cấpmột chức năng Cập Nhật mất như là đối số (1) thuật toán đối tượng, số (2)Các chỉ số của hầu hết mới chọn cánh tay và (3) phần thưởng nhận được từ việc lựa chọncánh tay đó. Phương pháp Cập Nhật sẽ có thông tin này và làm liên quanthay đổi để đánh giá các thuật toán của tất cả cánh tay.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 2:[Sao chép]

Sao chép!

Sau khi chúng tôi kéo một cánh tay, chúng tôi nhận được một tín hiệu khen thưởng trở lại từ hệ thống của chúng tôi. (Trong tiếp theo
chương, chúng tôi sẽ mô tả một khuôn khổ thử nghiệm, chúng tôi đã xây dựng mô phỏng các phần thưởng
để chúng tôi có thể gỡ lỗi thuật toán cướp của chúng tôi.) Chúng tôi muốn cập nhật thuật toán của chúng tôi
niềm tin về chất lượng của cánh tay, chúng tôi chỉ chọn bằng cách cung cấp này thưởng cho thông tin.
trong suốt cuốn sách này, tất cả các thuật toán cướp xử lý này bằng cách cung cấp
một chức năng cập nhật mà mất như đối số (1) một đối tượng giải thuật, (2) các số
chỉ số của cánh tay gần đây nhất được lựa chọn và (3) các phần thưởng nhận được từ chọn
cánh tay. Các phương pháp cập nhật sẽ đưa thông tin này và làm cho có liên quan
thay đổi đánh giá của thuật toán của tất cả các vũ khí.

đang được dịch, vui lòng đợi..

Kết quả (Việt) 3:[Sao chép]

Sao chép!

đang được dịch, vui lòng đợi..

Các ngôn ngữ khác

Hỗ trợ công cụ dịch thuật: Albania, Amharic, Anh, Armenia, Azerbaijan, Ba Lan, Ba Tư, Bantu, Basque, Belarus, Bengal, Bosnia, Bulgaria, Bồ Đào Nha, Catalan, Cebuano, Chichewa, Corsi, Creole (Haiti), Croatia, Do Thái, Estonia, Filipino, Frisia, Gael Scotland, Galicia, George, Gujarat, Hausa, Hawaii, Hindi, Hmong, Hungary, Hy Lạp, Hà Lan, Hà Lan (Nam Phi), Hàn, Iceland, Igbo, Ireland, Java, Kannada, Kazakh, Khmer, Kinyarwanda, Klingon, Kurd, Kyrgyz, Latinh, Latvia, Litva, Luxembourg, Lào, Macedonia, Malagasy, Malayalam, Malta, Maori, Marathi, Myanmar, Mã Lai, Mông Cổ, Na Uy, Nepal, Nga, Nhật, Odia (Oriya), Pashto, Pháp, Phát hiện ngôn ngữ, Phần Lan, Punjab, Quốc tế ngữ, Rumani, Samoa, Serbia, Sesotho, Shona, Sindhi, Sinhala, Slovak, Slovenia, Somali, Sunda, Swahili, Séc, Tajik, Tamil, Tatar, Telugu, Thái, Thổ Nhĩ Kỳ, Thụy Điển, Tiếng Indonesia, Tiếng Ý, Trung, Trung (Phồn thể), Turkmen, Tây Ban Nha, Ukraina, Urdu, Uyghur, Uzbek, Việt, Xứ Wales, Yiddish, Yoruba, Zulu, Đan Mạch, Đức, Ả Rập, dịch ngôn ngữ.