탐험-활용 딜레마

탐험하기(exploration)와 활용하기(exploitation) 사이의 딜레마. 이익을 극대화하기 위해 현재까지 알려진 최선의 선택을 하는 걸 활용, 현재까지 알려진 최선보다 더 나은 선택이 있을 가능성을 파악하기 위해 최선이 아닌 다른 선택을 하는 걸 탐험이라고 한다.

탐험을 지나치게 많이 하면 활용 기회가 줄어들고, 활용만 지나치게 많이 하면 최선이 아닌 선택을 최선의 선택으로 착각할 가능성이 높아지기 때문에 딜레마다.

Horizon

탐험이나 활용을 할 수 있는 횟수에 제한이 있는 경우, 몇 회 남아있는지를 horizon이라고 부른다. 일반적으로 horizon이 가까우면(즉 시도 횟수가 얼만 없으면) 탐험을 줄이는 게 유리하다. 반대로 horizon이 멀면(즉 시도 횟수가 많이 남아 있으면) 탐험을 늘리는 게 유리하다.

Multi-armed bandit

탐험-활용 딜레마의 대표적인 형식화는 MAB problem, 이 문제에 대한 해결책들은 MAB algorithm이라고 부른다.

Books

Bandit algorithms for website optimization

Articles

2025-02-21 - Study: Even after learning the right idea, humans and animals still seem to test other approaches