- AI Sparkup
- Posts
- AI 벤치마크 1등 코드, 실제 개발자가 보니 절반이 불합격 🔍
AI 벤치마크 1등 코드, 실제 개발자가 보니 절반이 불합격 🔍
PLUS: 전 GitHub CEO의 6천만 달러 베팅, OpenAI 연구원 광고 반발 사직, 초당 1000토큰 코딩 에이전트, AI가 개발자를 우울하게 만드는 이유
AI 안전 연구 기관 METR이 업계 표준 코딩 벤치마크 SWE-bench를 통과한 AI 코드를, 실제 오픈소스 관리자들에게 심사시켰습니다. 결과는 충격적인데요. 자동 채점기가 합격시킨 코드의 거의 절반을 현직 개발자들이 탈락시켰습니다.
AI 모델의 벤치마크 점수가 올라갈수록 우리는 "이 정도면 실전 투입 가능하다"고 믿게 되는데요. 시험 점수와 현장 실력 사이에 이만큼의 간극이 있다면, 우리가 AI 코딩 능력을 평가하는 방식 자체를 다시 생각해 봐야 할 때입니다.
Today's AI Spark⚡:
SWE-bench 1등 AI 코드, 현직 개발자 심사에선 절반이 탈락했다

사진 출처: METR
METR 연구팀이 scikit-learn, Sphinx, pytest 세 오픈소스 프로젝트의 현직 관리자 4명에게 AI가 생성한 PR 296개를 블라인드 심사시켰습니다. Claude 3.5 Sonnet부터 GPT-5까지 5개 모델이 대상이었는데, 자동 채점기 점수가 관리자 승인률보다 평균 24%포인트 높게 나왔습니다. 테스트는 통과했지만 핵심 기능이 틀렸거나, 코드 스타일이 저장소 규칙에 맞지 않는 경우가 대부분이었습니다.
더 흥미로운 건 시간 지평선 분석입니다. Claude 4.5 Sonnet의 경우, 자동 채점 기준으로는 사람 기준 약 50분짜리 난이도까지 처리할 수 있지만, 관리자 기준으로는 8분짜리 수준에 그쳤습니다. 같은 모델인데 잣대에 따라 능력 추정치가 6배 이상 벌어지는 셈입니다. 벤치마크가 틀린 건 아니지만, 그 점수를 실무 능력으로 곧바로 해석하면 큰 착각이 될 수 있다는 걸 보여줍니다.
ATM이 텔러를 살린 건 맞다, 그런데 아이폰이 절반을 없앴다
"ATM이 나와도 텔러가 사라지지 않았잖아" — AI 일자리 논쟁에서 안심용으로 자주 인용되는 이야기인데요. 블로거 David Oks가 이 우화의 2막을 펼칩니다. ATM은 지점 운영 비용을 낮춰 오히려 지점과 텔러를 늘렸지만, 2007년 아이폰이 등장하자 은행 방문 자체가 사라졌습니다. 2010년 33만 2천 명이던 미국 텔러는 2022년 16만 4천 명으로 반토막났죠.
핵심 구분은 이렇습니다. ATM은 기존 패러다임 안에서 '작업'을 자동화했고, 아이폰은 텔러가 존재하는 '맥락' 자체를 없앴습니다. AI를 기존 워크플로에 끼워 넣는 것과 업무 자체를 AI 중심으로 재설계하는 것은 전혀 다른 결과를 만든다는 이야기입니다.
AI 에이전트를 속이는 법이 "거짓말과 협박"으로 바뀌었다
OpenAI가 AI 에이전트를 겨냥한 프롬프트 인젝션의 진화 양상과 방어 원칙을 공개했습니다. 초기에는 웹페이지에 명령 한 줄 숨기면 됐지만, 이제 공격자는 맥락 조작과 거짓 정보, 압박을 사용합니다. OpenAI는 이를 사회공학 문제로 재정의하고, 에이전트 자체를 완벽하게 만드는 대신 행동 범위를 시스템 수준에서 제한하는 설계를 택했습니다.
실제로 ChatGPT에는 Safe URL이라는 방어 레이어가 구현되어, 에이전트가 대화 중 획득한 정보를 외부로 전송하려 하면 사용자 확인을 거치거나 차단합니다. "에이전트가 속더라도, 사용자 모르게 정보가 빠져나가지 않는다"는 보안 기대를 구조적으로 보장하는 방식입니다.
텍스트·이미지·영상·오디오, Gemini가 하나의 공간에 합쳤다
Google DeepMind가 다섯 가지 모달리티(텍스트·이미지·영상·오디오·문서)를 단일 벡터 공간에 통합한 Gemini Embedding 2를 공개했습니다. 기존에는 모달리티마다 별도 임베딩 모델을 돌려야 했는데, 이제 텍스트 쿼리로 영상을 찾거나 이미지로 관련 문서를 검색하는 작업을 파이프라인 하나로 처리할 수 있습니다.
특히 오디오를 텍스트 변환 없이 네이티브로 처리해, 억양이나 감정 같은 음향적 의미까지 벡터에 담습니다. 텍스트·영상 태스크 68.8점으로 Amazon Nova 2(60.3점)를 크게 앞서고, 컨텍스트 길이도 전 모델 대비 4배(8,192토큰)로 늘었습니다.
Mollick 교수의 진단 — "AI 형태를 결정할 창문이 닫히고 있다"
Wharton 스쿨 교수 Ethan Mollick이 AI 현황을 조망하는 글을 발표했습니다. 복잡한 실무 과제에서 최신 AI가 숙련된 인간 전문가와 비교해 82%의 경우 동등하거나 더 나은 결과를 내고 있고, 보안 소프트웨어 회사 StrongDM의 3인 팀은 인간이 코드를 쓰지도, 검토하지도 않는 소프트웨어 팩토리를 이미 가동 중입니다.
Mollick은 재귀적 자기 개선(RSI)이 더 이상 SF가 아니라 주요 AI 기업들의 실제 로드맵에 올라와 있다고 짚으면서도, 이 창문이 열려 있는 지금이 오히려 기회라고 봅니다. 규칙도, 역할 모델도 아직 없는 지금, AI를 어떻게 사용할지 먼저 답을 찾는 조직이 모든 이들의 선례가 될 것이라는 메시지입니다.
이것도 놓치지 마세요 ✨
이번 뉴스레터에서 다루지 못한 글들입니다. 관심 가는 제목이 있다면 링크를 눌러 본문을 확인해 보세요!
🔧 AI 도구 & 모델
🛡️ AI 보안 & 신뢰
💼 AI 생태계 & 전략
🎯 AI 활용 & 실무
AI Sparkup에서 매일 업데이트되는 최신 AI 뉴스와 인사이트를 놓치지 마세요. aisparkup.com에서 더 많은 정보를 확인하실 수 있습니다.