LLM에 대한 촘스키의 견해
- 2025-06-21
LLM에 대해 비판적으로 평가하는 촘스키의 에세이 The False Promise of ChatGPT를 읽고 남긴 메모.
학습에 필요한 데이터의 양
인간의 마음은 놀라울 정도로 효율적이고 심지어 우아하기까지 한 시스템으로, 아주 적은 양의 정보만으로 작동합니다. (On the contrary, the human mind is a surprisingly efficient and even elegant system that operates with small amounts of information.)
인간에겐 타고난 언어습득장치(LAD; Language Acquisition Device)가 있기 때문에 인간 아이는 최소한의 언어 자극만으로 모국어를 학습할 수 있다고 주장(자극의 빈곤 논증)의 연장이다. 행동주의적 언어 이론을 무너트린 촘스키의 핵심 논증 중 하나이다.
하지만 인간이 언어 학습을 하기 위해 필요한 데이터의 양을 “한 인간 아이가 태어나서 해당 문화권의 언어를 익히기 위해 필요한 데이터의 양”으로 규정하는 건 이 맥락에서는 적절치 않다. LAD는 진화의 산물(진화적 적응이거나 부산물)이므로 진화의 과정 중 사용한 모든 데이터를 합친 것과 비교해야 한다. 그래야 LLM 학습에 필요한 데이터의 양이 인간에 비해 지나치게 많은지 여부를 제대로 평가할 수 있다.
LAD가 있는 상태에서 인간 아이가 언어를 학습하기 위해 필요한 데이터의 양은 기반모델이 있는 상태에서 파인 튜닝을 하기 위해 필요한 데이터의 양과 비교하는 게 정당하다.
기술, 예측, 설명
인간의 마음은 데이터 포인트들 사이의 조잡한 상관관계를 추론하는 데 그치지 않고, 설명을 만들어내고자 합니다.
It seeks not to infer brute correlations among data points but to create explanations.
단순한 기술(mere description)과 진정한 설명(genuine explanation)의 구분도 촘스키의 오랜 주장 중 하나이고 나도 이 둘을 구분하는 게 중요하다는 점에는 깊게 동의한다. 하지만 “인간과 달리 LLM은 통계적 상관관계를 조잡하게 추론하는 데 그칠 뿐이다”라는 주장은 별 근거가 없고, 그저 오래된 계산주의-연결주의 논쟁을 반복하는 것에 불과하다.
촘스키의 이 에세이(2023년 3월 8일)와 비슷한 시기에 나온 Sparks of artificial general intelligence - Early experiments with GPT-4(2023년 3월 22일) 보고서에 의하면 기존에 “단순히 암기”했을 것이라고 보기 어려운 상황에 대해 설명(explanation)을 제법 잘 해내는 모습을 볼 수 있다. 적어도 겉으로 보기엔 그렇다(물론 촘스키는 “겉으로 보기에 그렇다”는 류의 행동주의/기능주의적 평가를 수용하지 않을테지만). 참고로 촘스키가 이 글을 쓸 당시에 대중에게 공개된 버전은 ChatGPT 3.5이고 “Sparks” 논문에서 사용한 버전은 ChatGPT 4의 내부 버전이었다. 혹시 촘스키가 ChatGPT 4를 써봤다면 의견이 달라졌을까? 아닐거라고 본다.
이후 추론(reasoning) 모델들이 나오면서 진정한 설명을 해내는 (것으로 보이는) 능력은 더 발전하고 있다. (DeepMind의 “Alpha” 시리즈 같은 neuro-symbolic 접근은 어지간한 인간에 비해 추론과 설명을 월등히 잘할테지만 촘스키는 아마 신경망 덕분이 아니고 심볼릭 계산 덕분이라고 주장할테니 이 사례는 빼놓자.)
설계의 제한
ChatGPT나 그 유사한 프로그램은 설계 방식으로 인해 뭐든지 무제한적으로 “배울” 수 있습니다(배운다는 건 사실 암기에 불과하지요). 가능한 것과 불가능한 것을 구분해낼 수 없습니다.
ChatGPT and similar programs are, by design, unlimited in what they can “learn” (which is to say, memorize); they are incapable of distinguishing the possible from the impossible.
“학습 방식이 이러저러하니 작동 방식도 이러저러할 것이다”라는 추측 역시 오래된 계산주의-연결주의 논쟁의 반복. 연결주의 진영에서는 설계가 단순하고 학습 데이터가 단순하더라도 모델에서 창발적인 속성이 나타날 수 있다고 본다(창발주의). LLM에게 길고 서사가 복잡한 추리소설을 제공하고 마지막 문장 “결국 범인은…” 다음 단어를 예측하라고 하면 높은 확률로 범인을 올바르게 지목하는데 이는 “단순 암기” 이외의 작용을 강하게 암시한다. (일리야 서츠케버의 논증)
이것도 암기에 불과하다고 본다면 여기에서 말하는 암기란 학습 데이터 그 자체에 대한 암기가 아니라 학습 데이터에 담긴 “잠재적 패턴”에 대한 암기로 보아야 할텐데, 이게 여전히 “단순 암기”이고 “확률적 앵무새”라고 주장할 수 있을까? 만약 그렇게 주장한다면 인간도 역시 확률적 앵무새에 불과하다고 봐야하지 않을까.
내 견해
나도 연결주의가 만능이며 연결주의만으로 모든 게 해결될거라고 보지는 않는다. 다만 연결주의로는 어떤 게 안된다는 식의 단언을 하는 건 매우 위험하다. 예를 들어 해로운 환각(이로운 환각도 존재하기 때문에 굳이 “해로운”을 붙였음)을 “완전히” 없애려면 (인간 수준으로 줄이는 것과 대비하기 위해 “완전히”를 강조), 기호주의 접근과 합쳐야(즉 neuro-symbolic 접근) “효율적”일 것이라고 생각한다(기호주의 없이도 완전히 없애는 게 원칙적으로는 가능할텐데 - Transformer는 메모리 바운드가 있는 UTM이니까 - 현실적으로는 infeasible하다고 생각해서 “효율적”이라고 표현).
촘스키는 대단히 훌륭한 학자이고 당대에 할 수 있는 최고의 지적 기여를 했다고 생각한다. 다만 LLM에 대한 촘스키의 의견이 지금 시대에 큰 가치를 주는지에 대해서는 의문이다. 다만 전통적 기호주의/계산주의 진영에서 LLM을 어떻게 보는지를 이해하기에 좋은 글이라고 생각한다.
이번에도 역시나 아서 C. 클라크를 인용하며 마치는 게 좋겠다.
경험 많은 자가 무엇이 가능하다고 말하면 거의 옳다. 그러나 그가 무엇이 불가능하다고 말하면 아마도 틀릴 것이다.