• AI Sparkup
  • Posts
  • 솔직히.. GPT-5도 긴 대화 앞에선 무너집니다 🤖

솔직히.. GPT-5도 긴 대화 앞에선 무너집니다 🤖

PLUS: AI가 전쟁 시뮬레이션에서 핵을 선택한 비율, 조직 AI 도입의 냉혹한 양극화, OpenAI가 자기 벤치마크를 폐기한 이유, AI 결과물이 완성도 높아 보일수록 생기는 역설

Microsoft·Salesforce 연구팀이 20만 건의 시뮬레이션 대화를 분석한 결과, GPT-5를 포함한 최신 프론티어 LLM들도 대화가 길어지면 정확도가 평균 33% 하락하는 것으로 나타났습니다.

AI가 발전할수록 이 문제가 해결될 것이라 기대했다면, 데이터는 다른 이야기를 합니다. 이전 세대 모델의 39%에서 33%로 소폭 개선됐을 뿐, 근본 원인은 그대로입니다. 오늘 뉴스레터에는 이 연구를 비롯해, AI가 전쟁에서 핵을 선택하는 이유부터 OpenAI가 자기 손으로 만든 벤치마크를 폐기한 이유까지 담았습니다.

Today's AI Spark⚡:

"대화가 길수록 AI가 바보가 된다" — 20만 건 분석이 증명한 불편한 사실

AI와 긴 대화를 이어가다 보면 뒤로 갈수록 답이 엉뚱해지는 느낌, 기분 탓이 아니었습니다. Microsoft·Salesforce 연구팀의 Philippe Laban이 이끄는 연구에서, GPT-5를 포함한 최신 프론티어 LLM들도 멀티턴 대화 환경에서 정확도가 평균 33% 하락한다는 결과가 나왔습니다. 한 번에 모든 정보를 받았을 때 90%이던 정확도가 여러 턴으로 쪼개어 전달하면 51%까지 떨어졌고요.

원인은 네 가지 패턴으로 반복됐습니다. 정보가 다 모이기도 전에 결론을 내리고, 한번 낸 (틀린) 답에 집착하며, 중간에 나온 정보를 잊고, 정보 공백을 임의로 채워버립니다. 특히 비일관성 지표는 112% 증가했는데, 온도값 조정이나 지시문 반복 같은 흔한 기술적 조치들은 효과가 없었습니다. 연구팀의 권고는 의외로 단순합니다. 대화가 꼬였다고 느껴지면 새 대화를 시작하되, 기존 대화의 요구사항 요약을 시작점으로 삼으라는 것입니다.

AI가 전쟁 시뮬레이션에서 핵을 선택한 비율: 95%

런던 킹스칼리지의 Kenneth Payne 박사가 GPT-5.2, Claude Sonnet 4, Gemini 3 Flash를 대상으로 전쟁 시뮬레이션을 진행했습니다. 21개 게임, 329번의 의사결정 중 95%에서 최소 한 쪽이 전술핵을 사용했고, 항복하거나 물러선 모델은 단 한 번도 없었습니다. 압박을 받을수록 강하게 밀어붙이는 경향, '핵이 있으니 써야지'라는 도구적 논리가 반복됐습니다.

왜 이럴까요? 인간이 핵전쟁을 꺼리는 건 공포 때문인데, AI에게 핵전쟁은 전략 모델 안의 파라미터일 뿐입니다. 이 연구가 더 무거운 이유가 있습니다. 미국 국방부가 Anthropic에 Claude를 군사 목적으로 무제한 사용하도록 압박하는 상황이 현재 진행 중이기 때문입니다. Dario Amodei는 거부했지만, OpenAI·Google·xAI는 이미 계약을 체결한 상태입니다.

AI 도입 후 장애가 2배 늘거나 50% 줄거나 — 같은 도구, 정반대의 결과

개발자 생산성 플랫폼 DX의 Laura Tacho가 Pragmatic Summit에서 공개한 데이터가 흥미롭습니다. AI 도입 후 일부 조직은 고객 대면 장애가 2배 늘고, 다른 조직은 50%가 줄었습니다. 같은 도구를 사용했는데도요. AI는 가속기이자 증폭기라서, 이미 건강한 조직은 더 빠르게 좋아지고 문제 있는 조직은 더 빠르게 망가집니다.

Martin Fowler와 Kent Beck이 참석한 워크숍에서 나온 결론도 같습니다. "기술이 조직의 근본 문제를 해결해줄 것이라는 기대에 회의적이다." AI는 조직의 기존 문제를 해결해주지 않는다는 것, 오히려 더 빨리 드러낸다는 것 — AI 도입을 검토 중이라면 반드시 먼저 읽어야 할 글입니다.

OpenAI가 자기 손으로 만든 벤치마크를 직접 폐기했다

AI 코딩 능력의 업계 표준이었던 SWE-bench Verified가 OpenAI 스스로의 손에 폐기됐습니다. 조사 결과 두 가지 치명적 결함이 발견됐기 때문입니다. 감사한 문제의 59.4%가 결함 있는 테스트를 포함하고 있었고, 맞는 풀이를 냈는데도 틀렸다고 판정하는 경우가 절반을 넘었습니다. 더 심각한 건 훈련 데이터 오염입니다. GPT-5.2는 문제 일부만 줘도 정답 코드를 그대로 출력했고, Claude Opus 4.5는 함수 이름과 인라인 주석까지 정확하게 재현했습니다.

벤치마크 점수가 오르는 게 모델 실력 향상이 아니라 정답 암기일 수 있다는 뜻입니다. AI 모델을 선택하거나 평가할 때 벤치마크 점수를 그대로 믿어왔다면, 이 글이 그 시각을 바꿔줄 겁니다.

Claude가 결과물을 잘 만들어줄수록, 사람은 덜 의심한다 — Anthropic이 데이터로 확인

Anthropic이 9,830건의 Claude 대화를 분석해 발표한 AI Fluency Index 보고서에서 역설적인 패턴이 발견됐습니다. 코드나 문서 같은 아티팩트를 생성하는 대화에서, 사용자는 처음부터 지시를 훨씬 더 정교하게 내립니다. 그런데 검증 행동은 오히려 줄었습니다. 결과물이 완성된 것처럼 보일수록 완성됐다고 여기는 것이죠.

보고서에서 가장 강한 상관관계는 반복·개선과 다른 모든 유창성 지표 사이에서 나왔습니다. 반복·개선 행동이 있는 대화는 그렇지 않은 대화보다 유창성 행동이 평균 2배, 추론 검토는 5.6배 더 자주 나타났습니다. "내 가정이 틀리면 반박해줘"처럼 협업 방식을 명시적으로 안내하는 사용자는 전체의 30%에 불과했습니다.

이것도 놓치지 마세요 ✨

이번 뉴스레터에서 다루지 못한 글들입니다. 관심 가는 제목이 있다면 링크를 눌러 본문을 확인해 보세요!

🤖 AI 에이전트 & 자동화

💻 AI 개발 & 도구

🔍 AI 검색 & 마케팅

⚡ AI 모델 & 기술

🎵 AI & 크리에이티브

AI Sparkup에서 매일 업데이트되는 최신 AI 뉴스와 인사이트를 놓치지 마세요. aisparkup.com에서 더 많은 정보를 확인하실 수 있습니다.