AI Sparkup
Posts
이미지 없이 의사보다 높은 점수? 멀티모달 AI가 "본" 건 신기루였다 🔬

이미지 없이 의사보다 높은 점수? 멀티모달 AI가 "본" 건 신기루였다 🔬

PLUS: 에이전틱 AI 훈련의 숨겨진 공통 원칙, 인터페이스가 AI 성능을 좌우하는 이유, Claude Code 유출이 증명한 코드 품질의 역설, AI 숙련자와 신규 사용자의 결정적 차이

AI Sparkup ⚡
April 06, 2026 • Estimated Reading Time: 2 minutes

스탠퍼드 연구팀이 멀티모달 AI의 충격적인 허점을 발견했습니다. 이미지를 전혀 받지 않은 AI 모델이 이미지를 본 것처럼 구체적으로 묘사하고, 심지어 방사선 전문의보다 높은 점수를 받았습니다. "미라지(신기루) 효과"라 이름 붙은 이 현상은, 지금까지 우리가 믿어온 멀티모달 AI의 시각 능력이 실제로는 텍스트 패턴 추론이었을 수 있다는 근본적 질문을 던집니다.

Today's AI Spark⚡:

이미지를 보지 않은 AI가 의사를 이겼다, 스탠퍼드가 밝힌 "미라지 효과"

사진 출처: Lummi.ai

스탠퍼드 연구팀이 GPT-5, Gemini 3 Pro, Claude Sonnet/Opus 4.5 등 주요 프론티어 모델에 이미지 없이 시각 관련 질문을 던졌더니, 모든 모델이 평균 60% 이상의 비율로 이미지를 본 것처럼 구체적인 묘사를 생성했습니다. 추가 프롬프트를 넣자 이 비율은 90~100%까지 치솟았는데요. 더 충격적인 건, 이미지를 단 한 장도 보지 않은 텍스트 전용 모델이 흉부 방사선 벤치마크에서 모든 프론티어 모델과 방사선 전문의를 제치고 1위를 차지했다는 점입니다.

이건 단순한 환각과는 다릅니다. 환각이 있는 이미지에서 없는 세부사항을 채워 넣는 것이라면, 미라지 효과는 이미지가 아예 없는데도 존재한다는 전제 자체를 만들어냅니다. 현재 멀티모달 벤치마크의 상당수가 시각 능력이 아닌 텍스트 추론을 측정하고 있을 수 있다는 뜻이죠. 특히 의료 AI 영역에서는 업로드 오류로 이미지가 빠졌을 때 모델이 중증 진단을 내놓을 수 있다는 점에서, 이 발견의 무게가 무겁습니다.

자세히 읽기

서로 다른 회사가 같은 결론에 도달했다 — 에이전틱 AI 훈련의 세 가지 법칙

Kimi, Cursor, Chroma — 서로 다른 문제를 풀던 세 팀이 강화학습으로 에이전틱 AI를 훈련하면서 독립적으로 같은 결론에 도달했습니다. 훈련 환경을 프로덕션과 동일하게 맞추고, 컨텍스트 관리를 핵심 과제로 다루고, 리워드 해킹에 반복적으로 대응한다는 세 가지 원칙인데요. Chroma의 200억 파라미터 모델이 훨씬 큰 프론티어 모델과 경쟁력 있는 검색 정확도를 내면서 속도는 10배 빠른 결과를 보여줬다는 점도 주목할 만합니다. 도메인 특화 RL 훈련이 파라미터 수의 격차를 상당히 좁힐 수 있다는 실증이죠.

자세히 읽기

AI 모델은 충분히 좋아졌는데, 왜 아직도 실망스러울까

와튼스쿨 교수 Ethan Mollick이 던진 질문이 정곡을 찌릅니다. AI에 실망하는 건 모델이 나빠서가 아니라 인터페이스가 잘못됐기 때문이라는 겁니다. Claude Code 소스코드를 분석한 Sebastian Raschka도 같은 결론에 도달했는데, 웹 UI와의 성능 차이를 만드는 건 더 좋은 모델이 아니라 라이브 레포 컨텍스트 자동 로딩, 프롬프트 캐시 재사용 등 6가지 엔지니어링 선택이라는 분석입니다. 문제는 이런 완성도 높은 전문 인터페이스가 개발자용으로만 존재한다는 점이에요. 개발자가 아닌 99%의 지식 노동자에게는 아직 이런 도구가 없습니다.

자세히 읽기

코드가 엉망인데 시장을 지배한다? Claude Code 유출이 보여준 역설

유출된 Claude Code 소스코드에는 단일 함수 3,167줄짜리 파일, 감정 분석에 정규식을 쓰는 부분 등 개발자들이 놀랄 만한 코드가 가득했습니다. 그런데 그 다음 날도 개발자들은 Claude Code를 사용했죠. Claude Code 총괄 Boris Cherny의 인터뷰가 핵심을 짚는데, Anthropic이 만드는 건 코드를 더 잘 읽는 시스템이 아니라 코드 변경의 효과를 더 잘 관찰하는 시스템이라는 것입니다. 사용자가 지불하는 건 깨끗한 코드가 아니라 모델과 하네스가 매끄럽게 통합된 완성된 경험이라는 분석이 인상적입니다.

자세히 읽기

AI를 오래 쓸수록 더 많이 맡길까? 100만 건 데이터가 보여준 의외의 답

Anthropic이 Claude 사용자 100만 건을 분석했더니, 예상과 반대의 결과가 나왔습니다. 6개월 이상 숙련자일수록 AI에게 일을 던지고 결과만 받는 '자동화'가 아니라, 반복적으로 피드백을 주고받는 '증강' 방식을 선호했습니다. 숙련자의 대화 성공률은 신규 사용자보다 약 10% 높았고, 동일한 작업을 수행할 때도 3~4%포인트 차이가 유지됐는데요. 한편 국가 간 AI 활용 격차는 오히려 벌어지고 있어서, 상위 20개국이 차지하는 비율이 45%에서 48%로 증가했습니다. AI를 잘 쓰는 기술이 곧 임금과 기회의 격차로 이어질 수 있다는 경고가 담겨 있습니다.

자세히 읽기

이것도 놓치지 마세요 ✨

이번 뉴스레터에서 다루지 못한 글들입니다. 관심 가는 제목이 있다면 링크를 눌러 본문을 확인해 보세요!

🤖 AI 모델 & 기술

💼 AI 개발자 & 생산성

🌐 AI 생태계 & 사회

🔍 AI 검색 & 콘텐츠

AI Sparkup에서 매일 업데이트되는 최신 AI 뉴스와 인사이트를 놓치지 마세요. aisparkup.com에서 더 많은 정보를 확인하실 수 있습니다.