2024년 4월 일지

2024년 4월 일지

월간 회고

chatplaying 계속 만드는 중.

일지

2024-04-15

생성 AI한테 노래를 가르쳤더니 스탠드업 코미디도 잘한다. 예전에 타타르키비츠의 미학사를 읽은 적이 있는데 고대(고졸기 미학)의 미적 양식은 시-노래-춤이 구분되지 않고 섞인 형태였다는 설명이 있었던 게 연상된다. 미(techne?) 개념도 여러가지(대칭, 조화, 리듬)가 뒤섞인 형태였다고 했던 것 같다.

x.com/sairahul1/status/1779434323319693575

2024-04-06

AI끼리 대화한(또는 기계가 생성한) 텍스트를 학습한 모델이 하나 둘 나오기 시작했는데(사례), 과연 테드 창의 우려 또는 예측대로 반복된 손실압축 이미지마냥 점점 흐리멍텅해질지, 아니면 AI끼리 대국하여 성능을 끌어올린 (이세돌 이후의) 알파고마냥 점점 좋아질지 궁금하다.

인간 언어는 유한한 기호의 재귀 조합으로 만들어지므로 소위 조합적 폭발이 일어난다. 따라서 지금까지 발화된 모든 문장을 모아봤자, 존재할 수 있는 모든 적법한 문장의 집합의 크기에 비하면 없는 것과 마찬가지다.

언어모델이 손실압축에 불과하다는 테드 창의 비유는 어떤 면에서는 유용하지만, 위와 같은 관점에서 생각해보면 딱히 잘 맞지는 않는다. GPT류의 언어모델은 아직 한 번도 발화된 적 없지만 유효한 문장들을 무한히 만들어낼 수 있다. 마치 게임 엔진 Unity가 만들어낸 가상의 공간에서 강화학습을 통해 에이전트를 유의미하게 훈련시킬 수 있듯, GPT 류의 언어 모델이 만들어낸 문장과 대화들도 더 나은 언어모델 개발에 활용될 수 있을 것 같다.

특히 멀티모달로의 확장을 생각해보면 합성 데이터(synthetic data, LLM이 생성한 텍스트도 합성 데이터라고 부르는지 모르겠지만)의 역할이 더욱 커지지 않을까?


2025-04-18에 추가: 경험의 시대에 오신 걸 환영합니다에 의하면 위 추측은 맞는 추측이었다. 혼자 찌던 망상이 나중에 맞말로 확인되면 신난다 ㅋㅋㅋ 그치만 실행을 안하면 무슨 소용이람 🤔

2025 © ak