Upper Confidence Bound 1
- 2025-11-07 (modified: 2025-11-08)
MAB 알고리즘의 일종. Epsilon Greedy와 달리 결정론적이고 파라메터가 없다는 점이 장점. 단 각 시행에 대한 보상이 0에서 1 사이여야 한다는 제약이 있음.
Algorithm
where
- : mean reward of arm so far
- : times arm has been played
- : round
MAB 알고리즘의 일종. Epsilon Greedy와 달리 결정론적이고 파라메터가 없다는 점이 장점. 단 각 시행에 대한 보상이 0에서 1 사이여야 한다는 제약이 있음.
where