탐험하기-뽑아먹기 딜레마
탐험하기(exploration)와 뽑아먹기(exploitation) 사이의 딜레마. 이익을 극대화하기 위해 현재까지 알려진 최선의 선택을 하는 걸 뽑아먹기, 현재까지 알려진 최선보다 더 나은 선택이 있을 가능성을 파악하기 위해 최선이 아닌 다른 선택을 하는 걸 탐험하기라고 한다.
탐험을 지나치게 많이 하면 뽑아먹기를 할 기회가 줄어들고, 탐험을 지나치게 적게 하면 최선이 아닌 선택을 최선의 선택으로 착각할 가능성이 높아지기 때문에 딜레마다.
Horizon
탐험하기나 뽑아먹기를 수행할 수 있는 횟수에 제한이 있는 경우, 몇 회 남아있는지를 horizon이라고 부른다. 일반적으로 horizon이 가까우면(즉 시도 횟수가 얼만 없으면) 탐험을 줄이는 게 유리하다. 반대로 horizon이 멀면(즉 시도 횟수가 많이 남아 있으면) 탐험을 늘리는 게 유리하다.
Multi-armed bandit
탐험하기-뽑아먹기 딜레마의 대표적인 형식화는 MAB problem, 이 문제에 대한 해결책들은 MAB algorithm이라고 부른다.