# Journal 2024-04

> 2024년 4월 일지

<2024년 4월> 일지

## 월간 회고

[chatplaying](https://wiki.g15e.com/pages/chatplaying.txt) 계속 만드는 중.

## 일지

### 2024-04-15

[생성 AI](https://wiki.g15e.com/pages/Generative%20AI.txt)한테 노래를 가르쳤더니 <스탠드업 코미디>도 잘한다. 예전에 <타타르키비츠의 미학사>를 읽은 적이 있는데 고대(고졸기 미학)의 미적 양식은 시-노래-춤이 구분되지 않고 섞인 형태였다는 설명이 있었던 게 연상된다. 미(techne?) 개념도 여러가지(대칭, 조화, 리듬)가 뒤섞인 형태였다고 했던 것 같다.

https://x.com/sairahul1/status/1779434323319693575

### 2024-04-06

AI끼리 대화한(또는 기계가 생성한) 텍스트를 학습한 모델이 하나 둘 나오기 시작했는데([사례](https://paperswithcode.com/paper/baize-an-open-source-chat-model-with)), 과연 <테드 창>의 우려 또는 예측대로 반복된 손실압축 이미지마냥 점점 흐리멍텅해질지, 아니면 AI끼리 대국하여 성능을 끌어올린 (<이세돌> 이후의) <알파고>마냥 점점 좋아질지 궁금하다.

인간 언어는 유한한 기호의 재귀 조합으로 만들어지므로 소위 <조합적 폭발>이 일어난다. 따라서 지금까지 발화된 모든 문장을 모아봤자, 존재할 수 있는 모든 적법한 문장의 집합의 크기에 비하면 없는 것과 마찬가지다.

언어모델이 손실압축에 불과하다는 테드 창의 비유는 어떤 면에서는 유용하지만, 위와 같은 관점에서 생각해보면 딱히 잘 맞지는 않는다. GPT류의 언어모델은 아직 한 번도 발화된 적 없지만 유효한 문장들을 무한히 만들어낼 수 있다. 마치 게임 엔진 <Unity>가 만들어낸 가상의 공간에서 [강화학습](https://wiki.g15e.com/pages/Reinforcement%20learning.txt)을 통해 에이전트를 유의미하게 훈련시킬 수 있듯, GPT 류의 언어 모델이 만들어낸 문장과 대화들도 더 나은 언어모델 개발에 활용될 수 있을 것 같다.

특히 멀티모달로의 확장을 생각해보면 [합성 데이터](https://wiki.g15e.com/pages/Synthetic%20data.txt)(synthetic data, LLM이 생성한 텍스트도 합성 데이터라고 부르는지 모르겠지만)의 역할이 더욱 커지지 않을까?

---

<2025-04-18>에 추가: [경험의 시대에 오신 걸 환영합니다](https://wiki.g15e.com/pages/Welcome%20to%20the%20Era%20of%20Experience.txt)에 의하면 위 추측은 맞는 추측이었다. 혼자 찌던 망상이 나중에 맞말로 확인되면 신난다 ㅋㅋㅋ 그치만 실행을 안하면 무슨 소용이람 🤔