Welcome to the Era of Experience

  • 2025-04-18
  • 저자: David Silver, Richard S. Sutton

Designing an Intelligence에 실릴 한 챕터의 초안.

storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf

Abstract

We stand on the threshold of a new era in artificial intelligence that promises to achieve an unprecedented level of ability. A new generation of agents will acquire superhuman capabilities by learning predominantly from experience. This note explores the key characteristics that will define this upcoming era.

The Era of Human Data

최근 몇 년 동안은 인간 데이터의 시대였고, 인간이 생성한 데이터와 인간의 판단(RLHF 등)을 기반으로 학습시킨 LLM이 크게 발전했음.

하지만 이 방법으로는 인간을 뛰어넘는 AI를 만들 수 없을 것으로 보임.

The Era of Experience

저자가 말하는 “경험의 시대”는 “인간 데이터의 시대”에 대비되는 말. 인간 데이터의 시대가 가고 경험의 시대가 시작되고 있음.

에이전트가 강력해짐에 따라 생성되는 데이터도 개선되어야만 하는데, 이는 에이전트가 환경과 상호작용하며 얻은 스스로의 경험으로부터 학습할 수 있도록 설계되어야만 가능. AlphaProof, DeepSeek 등의 사례를 보면 경험의 시대는 이미 시작되었음.

경험적 학습(Experiential Learning)을 통해 AI는 크게 발전할 수 있음. 경험적 학습이란?

  • 에이전트는 짧은 상호작용의 조각이 아니라 경험의 연속적 흐름 속에 존재할 것이다. (Agents will inhabit streams of experience, rather than short snippets of interaction.)
  • 에이전트의 행동 및 관찰은 인간과의 상호작용이 아닌 환경에 풍부한 기반을 둘 것이다. (Their actions and observations will be richly grounded in the environment, rather than interacting via human dialogue alone.)
  • 보상은 인간의 사전 판단에서 나오는 것이 아니라 환경에서의 경험에 근거할 것이다. (Their rewards will be grounded in their experience of the environment, rather than coming from human prejudgement.)
  • 에이전트는 인간적 관점에서의 추론을 하는 게 아니라 스스로의 경험에 대해 계획하고 추론할 것이다. (They will plan and/or reason about experience, rather than reasoning solely in human terms.)

이후에는 위 기준 각각을 부연.

Streams

경험적 에이전트는 “사용자가 물어보면 AI가 대답한다” 같이 서로 독립된 짧은 에피소드들을 잘 수행하는 방식이 아니라, 평생에 걸쳐 연속적인 학습을 하는 방식으로 장기적 목표를 위한 행동을 하거나 시간의 흐름에 따라 새로운 패턴을 익히며 적응하게 될 것.

그래야 장기적 목표 달성 가능성을 극대화하기 위한 전략적 행동을 수행할 수 있음.

(에이전트의 장기 목표를 뭘로 설정할지 각별히 조심해야겠다. 지니에게 소원을 잘못 빌면 소원이 달성되긴 하나 원하는 방식으로 달성되지 않는 것처럼. 옛날(?) 영화 “I, Robot”에서도 인간이 AI 에이전트 VIKI에게 로봇3원칙을 똑바로 설명하지 못해서 문제가 생긴 것 아닌가. “Careful what you wish for…”)

(이 맥락에서 “스트림”이라는 단어를 보니, Supersizing the mind에서 말하는 결합을 위한 감지 개념이 떠오른다. 저자가 말하는 “연속적 학습”이라는 개념은 굳이 꼭 장기적인 학습 맥락 뿐 아니라 다양한 시간 스케일에 걸쳐서 적용될 수 있겠다.)

Actions and Observations

경험적 에이전트는 실제 세상(the real world)에서 자율적으로 행동할 것. 현재의 LLM은 인간이 실제 세상에서 경험하고 행동한 결과를 “텍스트” 등의 형태를 매개로 간접 경험하는데 이는 인간을 비롯한 동물들이 세상에 존재하는 방식과 가장 큰 차이 중 하나.

(여기까지만 읽으면 “실제 세상”이라는 게 “물리적인 세상”을 상정하고 있는 것 같지만 꼭 그렇게만 생각할 필요는 없겠다. “실제 세상” 대신 “영속적이고 실질적인 귀결이 존재하는 상황” 정도로 폭넓게 이해하는 게 오히려 더 유익할 것. 예를 들어 에이전트 기반 코딩을 하는 상황에서 에이전트가 직접 코드를 실행하고 그 결과를 확인할 수 있는 환경을 얼마나 잘 갖추는지가 에이전트의 성능에 눈에 띄는 차이를 만들어준다. 참고: AI 지원 프로그래밍을 위한 새 실천법)

Rewards

현재의 방식(LLM의 응답을 인간이 평가하는 방식)은 현실에서의 귀결에 기반을 두고 있지 않다(not grounded). 제대로 된 보상 신호의 예시:

  • 헬스 에이전트: 사용자의 심박수, 수면 패턴, 활동 패턴 등
  • 교육 에이전트: 시험 결과 등
  • 기후위기 에이전트: 탄소 농도 등

범용 AI 에이전트의 경우 상황에 따라 유연하게 보상 함수를 변경할 수 있을 것. 예:

  • 사용자가 “내 건강을 개선하고 싶어”라는 포괄적인 목표를 제시하면 보상 함수는 심박수, 수면 시간, 걸음 수 등을 기반으로 계산한 값을 반환.
  • 사용자가 “스페인어를 배우고 싶어”라고 하면 보상 함수는 스페인어 시험 결과를 반환.

Planning and Reasoning

인간 데이터의 시대의 LLM은 인간의 추론 방식을 모방하고자 시도했음(예: Chain of thought prompting, 또는 이를 활용한 fine-tuning). 그러나 인간 언어를 통해 인간처럼 추론하는 방식이 과연 최적인지는 확신할 수 없다. AlphaProof와 같은 자가 학습 시스템은 인간 수학자와는 매우 다른 방식으로 복잡한 수학 정리를 증명하는 방법을 스스로 학습.

기존 방식의 LLM이 5000년 전 인간의 발화 데이터를 학습한다면 애니미즘(animism)에 기반한 추론을 습득할 것이고, 1000년 전 데이터를 학습한다면 신학적이며 유신론적인 추론 방식을 배울 것이다. 결국, 기존 방식으로는 인간의 한계를 뛰어넘기는 어렵다.

따라서 에이전트는 환경과 능동적으로 상호작용하면서 데이터를 수집하고, 이를 반복적으로 활용하여 세상에 대한 이해도를 점진적으로 높여가는 방식으로 작동해야 한다. 한 가지 효과적인 방법은 에이전트가 스스로 “월드 모델”을 구축하게 하여, 이를 기반으로 계획의 결과를 예측할 수 있도록 하는 것이다.

(경험 기계: 마음은 어떻게 현실을 예측하고 조각하는가의 주장과 아주 잘 연결된다.)

Why Now?

RL은 옛날부터 있었으나 ChatGPT의 흥행으로 인해 “인간 데이터의 시대”가 도래했고 RL에 대한 흥미가 떨어졌음. 이로 인해 에이전트 스스로가 새로운 지식을 발견하도록 하는 흐름(AlphaZero 등)이 잊혀짐.

앞서 제시한 네 가지 기준(연속적-장기적 학습, 환경과의 풍부한 상호작용, 환경으로부터의 실질적 신호에 기반한 보상, 환경과의 상호작용을 통해 계획하고 추론하는 방법을 학습)이 만족되면, “경험의 시대”가 본격적으로 열릴 것.

Reinforcement Learning Methods

잠시 유행에서 밀렸지만 RL은 강력한 개념. 경험의 시대에는 RL이 더욱 발전하며 중요한 역할을 하게 될 것.

Consequences

(긍정적 귀결은 생략)

새로운 도전 거리들:

  • 일자리 문제: AI 에이전트의 성능이 급격히 증가하면서 더 많은 일자리가 사라질 수 있음
  • AI 오용 문제: 장기적/자율적으로 활동하며 인간과 다른 방식으로 사고하는 에이전트로 인한 리스크.

경험적 에이전트는 리스크 대비에 있어서도 유리할 수 있음:

  • 경험 기반 에이전트는 자신이 위치한 환경을 인지하며 환경 변화에 따라 행동을 적응시킬 수 있음. 고장난 하드웨어를 우회하고 사회적 변화에 적응하며 새로운 과학과 기술을 수용할 수 있고 인간의 우려, 불만, 스트레스를 인지하고 행동을 변화시켜 부정적 결과를 피할 수 있음.
  • 에이전트의 보상 함수도 경험을 통해 적응될 수 있음. 예: 인간 우려 신호에 따라 보상 함수가 수정될 수 있을 것.
  • 물리적 경험에 의존하는 발전은 실제 행동 실행과 결과 관측에 걸리는 시간에 제약을 받음. 예: AI 지원 신약 개발도 현실 세계에서의 임상 시험이 필요하며, 이는 하루 만에 완료될 수 없음. 이러한 제약이 AI 자가 개선 속도를 자연스럽게 제어하는 역할을 할 수 있음.

Conclusion

The era of experience marks a pivotal moment in the evolution of AI. Building on today’s strong foundations, but moving beyond the limitations of human-derived data, agents will increasingly learn from their own interactions with the world. Agents will autonomously interact with environments through rich observations and actions. They will continue to adapt over the course of lifelong streams of experience. Their goals will be directable towards any combination of grounded signals. Furthermore, agents will utilise powerful non-human reasoning, and construct plans that are grounded in the consequences of the agent’s actions upon its environment. Ultimately, experiential data will eclipse the scale and quality of human generated data. This paradigm shift, accompanied by algorithmic advancements in RL, will unlock in many domains new capabilities that surpass those possessed by any human.

See also

2025 © ak