Reward structure. Notice that maximising the probability of choosing the best is equivalent to maximising the expected reward, where the reward structure is: 1 for choosing the best, and zero otherwise.
Cấu trúc phần thưởng. Thông báo maximising xác suất của việc lựa chọn tốt nhấtlà tương đương với maximising thưởng dự kiến, cấu trúc phần thưởng ở đâu: 1lựa chọn tốt nhất, và không khác.
Cấu phần thưởng. Chú ý rằng việc tối đa hóa khả năng lựa chọn tốt nhất là tương đương với tối đa hóa các phần thưởng dự kiến, khi cơ cấu phần thưởng là: 1 cho lựa chọn tốt nhất, và không khác.