안티키테라와 리처드 서튼의 교차점
- 2025-09-29
- 저자: AK
리차드 서튼의 Father of RL thinks LLMs are a dead end 대담과 안티키테라의 What Is Intelligence를 자꾸만 연결지어 생각하게 된다.
지금까지 공부했던 여러 분야가 엮여 들어가는 느낌이다. 까먹지 않기 위해 두서 없이 열거.
- What Is Intelligence의 Brainfuck 실험을 스케일만 키워서 오래 두면 필연적으로 효율적인 RL 알고리즘과 RL 에이전트들이 나타날까? 혹시 그게 나타나지 않는다면 우리가 알고 있는 RL이 그다지 좋은 방법이 아니라는 간접적인 증거일 수도 있을테고.
- 데이비드 실버(DeepMind 초기 멤버이자 경험의 시대에 오신 걸 환영합니다의 제1저자)가 Is human data enough?에서 인간의 개입(인간으로부터 얻은 데이터, RLHF 같은 인간의 판단 등)을 줄일수록 AI의 성능이 좋아진다는 얘기를 하면서 메타 RL(RL 알고리즘 자체를 RL로 만들기)로 얻어진 알고리즘이 인간이 설계한 알고리즘보다 뛰어나더라는 얘기를 한 것도 떠오른다.
- 한편, RL 알고리즘이 지역 최적점에 빠지지 않도록 만들 수 있는 좋은 수단 중 하나는 환경적 격리일텐데, 각 컴퓨터를 격리된 환경으로 취급한다면 격리도 자연스럽게 달성하면서 분산 컴퓨팅도 쉽게 할 수 있게 된다. 스케일 키우기는 아주 쉽겠다. 게다가 서튼의 큰 세상 가설에 의하면 개별 에이전트가 너무 비대해질 필요도 없으니(오히려 제약을 가하는 게 유익할 수 있음) 분산 컴퓨팅에 아주 유리하겠다.
- What Is Intelligence의 주장에 의하면, “환경”에 다른 에이전트들이 존재하고 이들이 서로 상호작용하도록 만드는 게 핵심적 역할을 한다. 환경을 예측하고자 하는 다른 에이전트가 있어야 고차원적 무기 경쟁(상대의 행동을 예측하려는 나의 행동을 예측하려는 상대)이 촉발되기 때문.
- 지역 최적점 이야기와 다른 에이전트와의 상호작용 이야기를 합치면, 이번에는 제프리 밀러가 연상된다. The mating mind에서 고삐 풀린 뇌 가설을 비판적으로 분석하는 내용이 나오는데, (고삐 풀린 뇌 가설 자체에 대해서는 부정적이었으나) 성선택에 의한 질주 과정이 극단적 효율만 추구하는 생존선택과는 다른 종류의 적응 형질을 만들어내고 이로 인해 지역 최적점을 극복할 수 있는 일종의 ‘선행 투자’를 할 수 있게 된다는 주장을 한다.
- 환경에 다른 에이전트들이 존재해야한다는 What Is Intelligence의 주장으로부터 제임스 J. 깁슨의 생태주의 심리학도 떠오른다. 애초에 깁슨이 생각한 어포던스 개념에서 유기체에게 가장 중요한 “환경”은 다른 유기체다.