위키 홈 Edit Upper Confidence Bound 1 2025-11-07 (modified: 2025-11-08) 목차 (맨 위로) Algorithm MAB 알고리즘의 일종. Epsilon Greedy와 달리 결정론적이고 파라메터가 없다는 점이 장점. 단 각 시행에 대한 보상이 0에서 1 사이여야 한다는 제약이 있음. Algorithm UCB1i(t)=u^i+2lntniUCB1_i(t) = \hat u_i + \sqrt\frac{2 \ln t}{n_i}UCB1i(t)=u^i+ni2lnt where u^i\hat u_iu^i: mean reward of arm iii so far nin_ini: times arm iii has been played ttt: round