2025년 10월 일지

2025-11-02 (modified: 2025-12-01)
← Journal 2025-09 → Journal 2025-11 ↑ Journal 2025

월간 회고

Claude Max 요금제($220)에 가입하고 뒤늦게 Claude Code를 써보기 시작했다. 약 2.5일 간 40시간 정도 집중해서 써봤는데 소문만큼 좋은지는 모르겠다. 하네스를 잘 갖추면 무료로 Qwen Code를 써도 어지간한 작업은 비슷하게 될 것 같은 느낌인데, 그래도 일단은 좀 더 경험을 해볼 생각이다.

패권: 누가 AI 전쟁의 승자가 될 것인가을 몇 달 동안 느릿느릿 읽었다.

일주일에 한 번씩 지인과 짝 프로그래밍을 하며 다른 회사의 코드를 살펴보고 있다.

Anki를 약 150일째 매일 쓰고 있다. 원소 기호, 중고등학생 필수 한자 1800개, 주요 인물의 출생일-사망일, 주요 저작의 출간일, 주요 영문 서체의 특징, 명화와 예술가들, 그리스 알파벳 대소문자, 세계지도와 국기 등을 외우고 있다. (5개월 쯤 전에 원소 기호, 한자, 역사, 지리 암기로 시작을 했는데 그 사이에 덱을 조금씩 추가했다)

원소기호는 60번까지 대충 외웠고, 서체 몇 개를 구분할 수 있게 됐고, 한자도 획수가 많지 않은 글자들은 대충 읽을 수 있고(쓰지는 못함), 세계 지도도 대충 드문드문 머리에 들어간 것 같다. 알고 있는 명화가 거의 없는데, 꾸역꾸역 외우다보니까 작가별 화풍 같은 걸 익히게 되는 장점도 있다.

세상 사는 해상도가 전반적으로 살짝 더 높아진 느낌이다. 길가다가 간판을 봐도 뭐가 조금 더 보이고(서체, 한자 등), 지나가다 뉴스를 읽거나 들어도 뭐가 더 들어온다(희토류 원소, 국제 뉴스의 국가명과 국기 등). 장-미셸 바스키아 전 포스터도 눈에 들어오고.

학창 시절에 공부를 열심히 했더라면 진작 더 많은 걸 보고 느끼며 살았을텐데.

일지

2025-10-26

패권: 누가 AI 전쟁의 승자가 될 것인가 다 읽었다.

좋았던 점:

각종 오리진 스토리와 뒷이야기가 재미있었다. 트랜스포머 아키텍쳐의 오리진 스토리, GPT의 오리진 스토리, 확률적 앵무새 논문의 오리진 스토리, 샘 올트만의 어린 시절과 초반 경력, 데미스 허사비스의 어린 시절과 초반 경력

아쉬운 점:

중국 등의 오픈 소스 모델들이 프론티어 모델을 빠르게 따라잡고 있는 현황을 전혀 반영하지 않고 마치 구글(제미나이)과 마이크로소프트(오픈AI)가 모든 걸 컨트롤하고 있다는 식으로 구도를 잡아 놓고 몰고가는 느낌이 있어서 아쉽다.
AI가 현실에 거의 아무런 긍정적인 기여도 하지 못하면서 완전히 영리 추구만을 한다는 식으로 지나치게 비판한다. 비판이 필요한 건 분명하지만 모든 기술에는 양면성이 있다는 사실도 중요하다.
AI에 의식이 있을 가능성에 대해 충분히 진지하게 평가하지 않고 확률적 앵무새 관점이 굳어진 정설인 것처럼 소개하는 점도 아쉽다.

2025-10-15

Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples를 읽었다. “Poisoning attack”이라는 게 마치 AI 시대의 XSS 같은 느낌인데, 이 연구에 의하면 모델의 크기와 무관하게 아주 적은 수의 데이터만 사전 훈련 단계에 집어넣으면 공격이 가능하기 때문에 공격이 생각보다 쉽다.

2025-10-11

약 2.5일 간 40시간 정도를 눈만 뜨면 Claude Code를 써보는 중이다. 지금까지의 소감은 이렇다. CC가 특히 코딩을 잘한다기보다 Cursor에 비해 적극성이 높다는 느낌이다. 예를 들면, 작업이 다 끝났다며(아님) 현재 브랜치를 메인에 머지해버리는 등의 행동을 해서 깜짝 놀래킨다. 놀라는 이유는 그 행동이 특별히 이상해서라기보다, 내가 Cursor를 쓰면서 암묵적으로 익힌 코딩 에이전트의 “적정한 적극성” 범주를 벗어나는 행동이기 때문인 것 같다.

동일한 LLM (Sonnet 4.5)인데 환경(CC vs. Cursor)에 따라 성격이나 행동패턴이 상당히 달라지는 게 재밌다. 그만큼 이끌기(steerability)가 잘 된다는 뜻이겠지?

한편, 프론티어급 모델 간 코딩 성능에서 크게 차이를 느끼지 못하는 이유는 아마 LLM들이 이미 충분히 똑똑해서 내가 지금 시키고 있는 일의 종류에서는 차이를 느끼기가 어렵기 때문일 수도 있겠다.

2025-10-10

코드에 더 손을 안대기 위해 IDE나 vim 등을 아예 안쓰고 터미널에서 Claude Code만 쓰면서 프로젝트를 해보고 있다. Claude Code가 얼핏얼핏 보여주는 코드 말고는 전혀 읽지 않는 중. 다만 pre-commit hook 등을 잘 설정해서 코드를 직접 보지는 않지만 내가 정한 최소한의 기준들(참고: AI 시대의 소스코드 품질)은 만족되도록 강제해두었다.

동일한 프로젝트 두 개를 하나는 ThreeJS, 다른 하나는 BabylonJS를 써서 병렬로 해보고 있는데 그럭저럭 잘 진행이 된다.

아직 내가 자리를 비울 수는 없고 하루종일 컴퓨터 앞에 앉아서 마이크로 매니징 하면서 피드백을 해주고 있는데, 이게 좀 마음에 안든다. 환경을 조금 잘 갖추면(그리고 프로젝트 종류가 3D 게임 같은 게 아니라면), 좀 더 오래 알아서 일하도록 시킬 수 있을 것 같다.

2025-10-09

LLM hacking이라는 개념을 공부했다. 여기서 말하는 해킹이란 p-hacking에서의 해킹과 비슷한 느낌으로, (사회) 과학 연구의 맥락에서 일어나는 어뷰징을 말한다.

미루고 미루다가 월 $200 Claude Max 플랜을 구독했다. 일단은 짧은 간격으로 피드백을 주고받으며 성격(?)을 파악하는 중인데 아직까지는 Claude Code가 다른 에이전트(gemini 2.5 pro, gpt-5-codex 등)에 비해 엄청나게 다른지는 잘 모르겠다.

코드에 손을 최대한 대지 않기 위해서 일부러 완전히 생소한 분야인 3D 게임 프로그램 분야를 골라봤다. 의외의 장점이 있는데, 에이전트가 뭘 하겠다고 계획을 세우면 뭘 하겠다는 건지 모르니까 일단 하라고 시켜놓고 그게 뭔지 LLM에게 따로 물어보는 식으로 하게 된다. 이렇게 하니까 에이전트가 일하는 동안 (인간의) 컨텍스트 유지도 되고 공부도 되어서 좋다.

Opus는 사용 한도가 빡빡한 편인 것 같다. 누적 6시간 정도 쓰니 “Approaching Opus weekly limit” 메시지가 나왔고, 2시간 쯤 더 쓰니 한도가 초과되어 Sonnet 4.5로 전환했다. 그 후 4시간 정도 더 했는데 아직 Sonnet 4.5 한도에 대한 메시지는 나오지 않는다.

2025-10-01

긴 연휴의 시작. 이번 연휴엔 평소에 미뤄뒀던, 개인적으로 의미가 있는 무언가를 꼭 만들어봐야겠다.