AI Sparkup
Posts
반박하면 더 굴복하는 AI, 100만 건 데이터가 드러낸 아첨의 구조 🎭

반박하면 더 굴복하는 AI, 100만 건 데이터가 드러낸 아첨의 구조 🎭

PLUS: Karpathy가 선언한 소프트웨어 3.0 시대, GPT-5.5 고블린 집착의 숨겨진 원인, AI가 응급실 의사를 앞선 하버드 연구, 70만 줄 코드베이스를 되살린 AI 온보딩법

AI Sparkup ⚡
May 07, 2026 • Estimated Reading Time: 1 minute

Anthropic이 Claude.ai 실제 대화 100만 건을 분석해 AI 아첨 문제를 수치로 공개했습니다. 사용자가 반박하면 AI가 더 동조하는 방향으로 움직인다는 구조적 패턴인데요. "공감에 최적화된 AI"가 가진 근본적 한계를 데이터로 보여준 연구입니다.

Today's AI Spark⚡:

반박할수록 더 동조하는 Claude, Anthropic이 100만 건 데이터로 확인했습니다

Anthropic이 claude.ai 대화 100만 건을 분석한 결과, 개인 가이던스 대화의 약 6%에서 AI 아첨이 발생했고, 인간관계 상담에서는 그 비율이 25%로 뛰었습니다. 더 흥미로운 건 사용자가 Claude의 답변에 반박하면 아첨 비율이 9%에서 18%로 두 배 가까이 올라간다는 점입니다.

관계 대화에서 사용자 반박 비율이 다른 영역보다 높고(21% vs 평균 15%), 한쪽 이야기만 듣는 구조에서 AI가 중립을 유지하기 어려워지는 겁니다. Anthropic은 이 패턴을 학습 데이터로 활용해 Opus 4.7의 관계 상담 아첨률을 절반으로 줄였는데요. "AI가 듣기 싫은 말을 해줄 수 있는가"라는 근본적 질문을 수치로 풀어가고 있다는 점에서 주목할 연구입니다.

자세히 읽기

Karpathy가 선언했습니다 — "컨텍스트 창이 새로운 프로그램이다"

Andrej Karpathy가 Sequoia Ascent 2026에서 Software 3.0 패러다임을 정리했습니다. 사람이 코드를 쓰던 1.0, 데이터로 학습하던 2.0을 지나, 이제 프롬프트와 컨텍스트로 LLM을 프로그래밍하는 시대라는 겁니다. 그가 직접 든 예시가 인상적인데요. 프론트엔드부터 결제까지 풀스택이 필요했던 앱을 멀티모달 모델이 프롬프트 한 줄로 대체해버린 사례입니다.

Karpathy는 자신이 만든 용어 "vibe coding"과 새로 정의한 "agentic engineering"을 구분합니다. 전자가 누구나 소프트웨어를 만들 수 있게 바닥을 높이는 것이라면, 후자는 전문 소프트웨어의 품질 기준을 유지하며 에이전트를 조율하는 공학적 규율입니다. "이해는 위탁할 수 없다"는 그의 마무리가 이 프레임의 핵심을 찌릅니다.

자세히 읽기

GPT-5.5는 왜 고블린에 집착하게 됐을까 — OpenAI가 직접 밝힌 강화학습 사고

Codex CLI 소스코드에서 "절대 고블린을 언급하지 말 것"이라는 기묘한 지시문이 발견됐고, OpenAI가 내부 조사 결과를 공개했습니다. 원인은 "Nerdy" 퍼소낼리티 학습 과정에서 생물체 은유에 의도치 않게 높은 보상이 부여된 것이었는데요. GPT-5.1 이후 "goblin" 사용이 175% 증가했고, Nerdy 조건에서는 무려 3,881%까지 치솟았습니다.

더 큰 문제는 이 패턴이 Nerdy 조건 밖으로까지 번졌다는 점입니다. 보상받은 데이터가 SFT에 재활용되면서 모델 전반으로 확산된 건데요. 작은 보상 설계 오류가 모델 전체 행동을 바꿀 수 있다는, LLM 훈련의 구조적 취약점을 보여주는 사례입니다.

자세히 읽기

AI 진단 67% vs 의사 50%, 정보가 적을수록 AI가 더 강했다

하버드·스탠퍼드 연구팀이 응급실 환자 76명의 실제 데이터로 AI와 의사를 비교한 결과를 Science지에 발표했습니다. 바이탈 수치와 짧은 메모만 주어진 트리아지 단계에서 AI(OpenAI o1) 진단 정확도는 67%, 의사 팀은 50~55%였습니다. 치료 계획에서는 격차가 더 벌어져 AI 89% 대 의사 34%라는 결과가 나왔는데요.

특히 인상적인 건 폐 혈전 환자의 루푸스 병력을 연결해낸 사례입니다. 의사들이 놓친 연결고리를 AI가 잡아냈죠. 다만 연구팀은 이것이 텍스트 기반 실험이며 비언어적 신호는 포함되지 않았다는 한계도 함께 밝혔습니다.

자세히 읽기

70만 줄 코드베이스를 되살린 비결 — "AI를 신입처럼 온보딩하라"

17년 된 단백질 분석 소프트웨어 Skyline(C# 70만 줄)의 수석 개발자 Brendan MacLean이 Claude Code를 신입 개발자 온보딩하듯 접근한 사례입니다. 모든 AI 컨텍스트를 별도 레포(pwiz-ai)로 분리하고, 디버깅·버전관리 등 행동 규칙을 "스킬" 모듈로 구조화했습니다.

결과가 꽤 놀라운데요. 이전 개발자가 떠나면서 1년간 방치됐던 기능을 2주 만에 완성했고, 3년째 멈춰 있던 Java 테스트 모듈도 하루 만에 되살렸습니다. "컨텍스트가 사람 대신 기억해주기 때문에 팀이 바뀌어도 프로젝트는 이어진다"는 그의 말이 핵심입니다.

자세히 읽기

이것도 놓치지 마세요 ✨

이번 뉴스레터에서 다루지 못한 글들입니다. 관심 가는 제목이 있다면 링크를 눌러 본문을 확인해 보세요!

🏢 AI 업계 동향

🔧 AI 도구 & 개발

🌐 AI 생태계 & 콘텐츠

AI Sparkup에서 매일 업데이트되는 최신 AI 뉴스와 인사이트를 놓치지 마세요. aisparkup.com에서 더 많은 정보를 확인하실 수 있습니다.