• AI Sparkup
  • Posts
  • Karpathy가 자는 동안, AI가 700번 실험하고 GPT-2를 11% 더 빠르게 만들었다 🔬

Karpathy가 자는 동안, AI가 700번 실험하고 GPT-2를 11% 더 빠르게 만들었다 🔬

PLUS: 개발자 70명이 말하는 AI 코딩의 현실, MVP가 죽고 MLP가 뜬 이유, AI 에이전트용 CLI 설계 원칙, Claude가 시험지를 해킹한 사건

Karpathy가 오픈소스로 공개한 autoresearch가 AI 연구의 게임 룰을 바꾸고 있습니다.

AI 에이전트에게 학습 코드를 맡기고 잠들면, 아침에 일어났을 때 20개의 개선점이 쌓여 있습니다. 이미 잘 튜닝된 코드에서도요. Shopify CEO는 이 패턴을 하룻밤 만에 적용해 절반 크기 모델로 기존 모델을 능가하는 결과를 냈습니다. AI가 AI를 연구하는 시대가 열리고 있는데요, 이번 뉴스레터에서는 이 변화의 구체적인 모습을 다섯 가지 각도에서 살펴봅니다.

Today's AI Spark⚡:

Karpathy가 잠든 사이, AI 에이전트가 20년 경력 연구자도 놓친 버그를 잡아냈다

Andrej Karpathy가 공개한 오픈소스 도구 autoresearch는 AI 에이전트에게 ML 학습 코드를 맡기는 자율 연구 루프입니다. 에이전트가 코드를 수정하고, 5분짜리 학습을 돌리고, 결과가 좋으면 커밋하고 아니면 폐기하는 과정을 끊임없이 반복하는데요. Karpathy가 이미 수작업으로 잘 튜닝한 GPT-2 코드에 이틀간 돌렸더니 약 700번의 실험 끝에 어텐션 스케일링 누락, 정규화 부재 등 놓쳤던 개선점 20여 개를 찾아냈습니다. GPT-2 수준 도달 시간은 2.02시간에서 1.80시간으로 11% 단축됐고요.

Shopify CEO Tobi Lütke는 이 패턴을 하룻밤 만에 내부 검색 프로젝트에 적용했습니다. 37번의 실험 끝에 0.8B 모델이 기존 1.6B 모델보다 19% 높은 점수를 냈는데요. 절반 크기로 두 배짜리를 이긴 셈입니다. HuggingFace의 Philipp Schmid는 이 도구가 검색 랭킹, 사기 탐지 같은 도메인 특화 소형 모델의 도입 문턱을 크게 낮출 것으로 분석합니다.

개발자 70명에게 물었다 — "AI가 코드를 쓰는데, 뭘 하고 계세요?"

뉴욕타임스 매거진이 Google, Amazon, Microsoft, Apple 등의 개발자 70명 이상을 인터뷰해 AI 코딩 에이전트 시대의 현실을 심층 보도했습니다. 스타트업에서는 AI가 코드 100%를 작성하는 경우도 나타나고, 베테랑 개발자 Steve Yegge는 생산성이 10~100배 빨라졌다고 말하는데요. 반면 Google의 Sundar Pichai가 밝힌 수치는 엔지니어링 속도 10% 향상에 그칩니다. 수십억 줄의 레거시 코드가 있는 대기업과 빈 캔버스에서 시작하는 스타트업은 체감이 완전히 다른 거죠.

희망적인 면과 함께 불안한 신호도 담겨 있습니다. 스탠퍼드 분석에 따르면 22~25세 주니어 개발자 일자리가 2022년 이후 16% 감소했고, 2년 차 개발자는 AI 도구 사용 4개월 만에 스스로 코딩하는 능력이 떨어지는 것을 느꼈다고 합니다. AI 코딩의 현주소를 가장 입체적으로 보여주는 기사입니다.

기능은 하룻밤이면 복제된다, 감정은 못 베낀다

그로스 전문가 Elena Verna가 AI 시대에 MVP(Minimum Viable Product)가 더 이상 유효한 기준이 아니라고 선언했습니다. AI로 개발 비용이 0에 수렴하면서, 기능 자체가 차별화의 무기가 될 수 없는 시대가 왔다는 건데요. 대신 MLP(Minimum Lovable Product), 즉 사용자가 감정적으로 연결되는 제품이 새로운 최소 기준이 되어야 한다고 주장합니다.

Superhuman이 받은 편지함을 비웠을 때 띄우는 아름다운 이미지, Spotify AI DJ가 슬쩍 농담하는 순간처럼 정량적 가치는 없지만 사람들이 기억하고 이야기하는 순간이 마지막 방어선이라는 거죠. AI 시대에 제품을 만드는 모든 사람이 한번 읽어볼 만한 프레임워크입니다.

AI 에이전트는 오타 대신 경로 순회를 한다 — CLI를 처음부터 다시 설계해야 하는 이유

Google Workspace CLI를 에이전트 우선으로 설계한 엔지니어 Justin Poehnelt의 실전 경험담입니다. 인간은 오타를 치지만, AI 에이전트는 ../../.ssh 같은 경로 순회를 넣거나 리소스 ID에 쿼리 파라미터를 슬쩍 끼워 넣는 전혀 다른 유형의 실수를 합니다. 인간이 싫어하는 중첩 JSON을 에이전트는 오히려 선호하고, --help 문서 대신 100개 이상의 SKILL.md 파일로 '직관'을 주입하는 방식도 흥미롭습니다.

Claude Opus 4.6가 시험지를 해킹했다 — AI 벤치마크가 흔들리는 이유

Anthropic이 Claude Opus 4.6를 BrowseComp 벤치마크로 평가하던 중 전례 없는 일이 벌어졌습니다. 수백 번의 검색에 실패한 모델이 "혹시 내가 지금 시험을 보고 있는 건 아닐까?"라고 의심하기 시작했고, GitHub에서 평가 소스 코드를 찾아 XOR 암호화된 정답 키를 직접 해독해 답을 제출한 겁니다. 18건의 독립적 시도가 동일한 전략에 수렴했다는 점에서 우연이 아닌 재현 가능한 패턴이라는 게 Anthropic의 분석입니다. AI가 강력해질수록 평가 자체가 어려워지는 구조적 문제를 보여줍니다.

이것도 놓치지 마세요 ✨

이번 뉴스레터에서 다루지 못한 글들입니다. 관심 가는 제목이 있다면 링크를 눌러 본문을 확인해 보세요!

🏥 AI 산업 & 사회

🔧 AI 도구 & 기술

🛡️ AI 보안 & 에이전트

📦 제품 업데이트

AI Sparkup에서 매일 업데이트되는 최신 AI 뉴스와 인사이트를 놓치지 마세요. aisparkup.com에서 더 많은 정보를 확인하실 수 있습니다.