안티키테라와 리처드 서튼의 교차점

리차드 서튼의 Father of RL thinks LLMs are a dead end 대담과 안티키테라의 What Is Intelligence를 자꾸만 연결지어 생각하게 된다.

지금까지 공부했던 여러 분야가 엮여 들어가는 느낌이다. 까먹지 않기 위해 두서 없이 열거.

What Is Intelligence의 Brainfuck 실험을 스케일만 키워서 오래 두면 필연적으로 효율적인 RL 알고리즘과 RL 에이전트들이 나타날까? 혹시 그게 나타나지 않는다면 우리가 알고 있는 RL이 그다지 좋은 방법이 아니라는 간접적인 증거일 수도 있을테고.
데이비드 실버(DeepMind 초기 멤버이자 경험의 시대에 오신 걸 환영합니다의 제1저자)가 Is human data enough?에서 인간의 개입(인간으로부터 얻은 데이터, RLHF 같은 인간의 판단 등)을 줄일수록 AI의 성능이 좋아진다는 얘기를 하면서 메타 RL(RL 알고리즘 자체를 RL로 만들기)로 얻어진 알고리즘이 인간이 설계한 알고리즘보다 뛰어나더라는 얘기를 한 것도 떠오른다.
한편, RL 알고리즘이 지역 최적점에 빠지지 않도록 만들 수 있는 좋은 수단 중 하나는 환경적 격리일텐데, 각 컴퓨터를 격리된 환경으로 취급한다면 격리도 자연스럽게 달성하면서 분산 컴퓨팅도 쉽게 할 수 있게 된다. 스케일 키우기는 아주 쉽겠다. 게다가 서튼의 큰 세상 가설에 의하면 개별 에이전트가 너무 비대해질 필요도 없으니(오히려 제약을 가하는 게 유익할 수 있음) 분산 컴퓨팅에 아주 유리하겠다.
What Is Intelligence의 주장에 의하면, “환경”에 다른 에이전트들이 존재하고 이들이 서로 상호작용하도록 만드는 게 핵심적 역할을 한다. 환경을 예측하고자 하는 다른 에이전트가 있어야 고차원적 무기 경쟁(상대의 행동을 예측하려는 나의 행동을 예측하려는 상대)이 촉발되기 때문.
지역 최적점 이야기와 다른 에이전트와의 상호작용 이야기를 합치면, 이번에는 제프리 밀러가 연상된다. The mating mind에서 고삐 풀린 뇌 가설을 비판적으로 분석하는 내용이 나오는데, (고삐 풀린 뇌 가설 자체에 대해서는 부정적이었으나) 성선택에 의한 질주 과정이 극단적 효율만 추구하는 생존선택과는 다른 종류의 적응 형질을 만들어내고 이로 인해 지역 최적점을 극복할 수 있는 일종의 ‘선행 투자’를 할 수 있게 된다는 주장을 한다.
환경에 다른 에이전트들이 존재해야한다는 What Is Intelligence의 주장으로부터 제임스 J. 깁슨의 생태주의 심리학도 떠오른다. 애초에 깁슨이 생각한 어포던스 개념에서 유기체에게 가장 중요한 “환경”은 다른 유기체다.
서튼은 RL이 특정 도메인에서 인간을 뛰어넘는 건 가능하지만(AlphaGo Zero 등의 사례를 보면 자명), RL로 A”G”I를 하려면 transfer가 중요한데 RL에서 이걸 잘 하는 방법은 아직 아무도 찾지 못했다고 말한다. 나는 신경진화 접근이 그런걸 가능하게 해주지 않을까 하고 막연히 상상한다. 진화 알고리즘에 의해서 도메인 특화 지식들을 담은 파라메터가 어느 정도 고정되고 에이전트가 경험을 통해 온라인 학습한 내용이 파라메터를 미세조정하는 방식이면 좋은 조합이지 않을까. RL에서 전이가 어려운 이유 중 하나가 새로운 데이터가 기존 파라메터를 덮어쓰면서 기존에 배운 패턴을 망가뜨리는 문제라고 알고 있다. 도메인 특화 지식을 담은 큰 틀에서의 배선이 어느 정도 고정되면 이 문제가 좀 해결되지 않을까. 이 경우에도 결국 자연의 설계에서 배울 점이 있다고 생각하는데, 신경가소성이 어떤 부분에서는 아주 뛰어나고 어떤 부분에서는 상당히 제한적이라는 게 우연적인 특성이 아니라 혹시 이것도 자연선택에 의한 설계가 아닐까 상상을 해본다. 획득 형질이 (대체로) 유전되지 않도록 된 이유도 어쩔 수 없는 제약이 아니라 혹시 설계일까?