# Exploration-exploitation dilemma > 탐험하기(exploration)와 활용하기(exploitation) 사이의 딜레마. 이익을 극대화하기 위해 현재까지 알려진 최선의 선택을 하는 걸 **활용**, 현재까지 알려진 최선보다 더 나은 선택이 있을 가능성을 파악하기 위해 최선이 아닌 다른 선택을 하는 걸 **탐험**이라고 한다. 탐험하기(exploration)와 활용하기(exploitation) 사이의 딜레마. 이익을 극대화하기 위해 현재까지 알려진 최선의 선택을 하는 걸 **활용**, 현재까지 알려진 최선보다 더 나은 선택이 있을 가능성을 파악하기 위해 최선이 아닌 다른 선택을 하는 걸 **탐험**이라고 한다. 탐험을 지나치게 많이 하면 활용 기회가 줄어들고, 활용만 지나치게 많이 하면 최선이 아닌 선택을 최선의 선택으로 착각할 가능성이 높아지기 때문에 딜레마다. ## Horizon 탐험이나 활용을 할 수 있는 횟수에 제한이 있는 경우, 몇 회 남아있는지를 horizon이라고 부른다. 일반적으로 horizon이 가까우면(즉 시도 횟수가 얼만 없으면) 탐험을 줄이는 게 유리하다. 반대로 horizon이 멀면(즉 시도 횟수가 많이 남아 있으면) 탐험을 늘리는 게 유리하다. ## Multi-armed bandit 탐험-활용 딜레마의 대표적인 형식화는 , 이 문제에 대한 해결책들은 이라고 부른다. ## Books - [Bandit algorithms for website optimization](https://wiki.g15e.com/pages/Bandit%20algorithms%20for%20website%20optimization.txt) ## Articles - 2025-02-21 - [Study: Even after learning the right idea, humans and animals still seem to test other approaches](https://news.mit.edu/2025/even-after-learning-right-idea-humans-animals-still-test-other-approaches-0221)