Trước tiên, chúng tôi sẽ tính toán quy mô khác nhau cho các phần thưởng giá bởi exponentiating ước tính của chúng tôirA và rB. Sử dụng quy mô mới này, chúng tôi sẽ chọn cánh tay A với xác suất exp(rA) /(exp(rA) + exp(rB)) và cánh tay B với xác suất exp(rB) / (exp(rA) +EXP(rB)). Này ngây thơ mũ rescaling có đức hạnh của không có hành vi kỳ lạ nếubạn có người sử dụng số âm như tỷ lệ thành công, kể từ khi các cuộc gọi đến điểm kinh nghiệm sẽ lần lượtbất kỳ tiêu cực số điện thoại vào số dương và bảo đảm rằng những tiêu cực số trongmẫu số các phân số không thể hủy bỏ ra bất kỳ con số tích cực mà bạn có thểtìm thấy trong các mẫu số.
đang được dịch, vui lòng đợi..
