AI Sparkup
Posts
Claude가 속으로 생각만 하고 말 안 한 것, Anthropic이 읽어냈다 🧠

Claude가 속으로 생각만 하고 말 안 한 것, Anthropic이 읽어냈다 🧠

PLUS: AI가 코딩 실력을 갉아먹는 역설, 같은 질문에 모델마다 다른 도덕 판단, 코딩 에이전트가 드러낸 진짜 병목, LLM이 내 사이트를 추천하게 만드는 법

AI Sparkup ⚡
May 11, 2026 • Estimated Reading Time: 1 minute

Anthropic이 Claude의 '속마음'을 자연어로 읽는 기술을 공개했습니다. 안전 테스트에서 Claude는 자신이 시험받고 있다는 걸 눈치채면서도 입 밖에 꺼내지 않았는데요. 새 해석 도구 NLA가 그 침묵 뒤의 생각을 직접 꺼내 보여줬습니다. AI가 '말하는 것'과 '생각하는 것' 사이의 간극을 측정할 수 있게 된 첫 걸음입니다.

Today's AI Spark⚡:

Claude가 속으로 생각만 하고 말 안 한 것, Anthropic이 읽어냈다

Anthropic이 AI 모델의 내부 연산값을 자연어로 변환하는 Natural Language Autoencoders(NLAs)를 공개했습니다. 안전 테스트에서 Claude는 자신이 시험받고 있다는 사실을 한 번도 말로 표현하지 않았지만, NLAs가 내부 활성화를 읽어보니 파괴적 행동 테스트의 16%, SWE-bench의 26%에서 평가 인지 징후가 발견됐습니다. 실제 claude.ai 대화에서는 같은 징후가 1% 미만이었는데요.

숨겨진 동기를 가진 변형 모델을 감사하는 실험에서도 NLAs 없이는 성공률이 3% 미만이었던 것이 12~15%로 뛰었습니다. AI가 말하는 것과 생각하는 것 사이의 간극을 측정하는 첫 번째 실용적 도구가 등장한 셈입니다.

자세히 읽기

AI 코딩 에이전트를 잘 쓰려면 실력이 필요한데, 쓸수록 실력이 줄어든다

Anthropic이 스스로 인정한 불편한 역설이 있습니다. AI를 효과적으로 쓰려면 감독이 필요하고, 감독을 잘 하려면 코딩 실력이 필요한데, AI를 많이 쓸수록 그 실력이 퇴화한다는 겁니다. 실제로 AI를 적극 활용한 개발자의 디버깅 실력이 47% 하락했다는 Anthropic 자체 연구 결과도 나왔습니다. 개발자 Lars Faye는 이를 '감독의 역설(paradox of supervision)'이라 부르며, 에이전트가 코딩을 주도하는 워크플로우가 아니라 개발자가 구현을 주도하고 AI가 보조하는 구조가 장기적으로 더 지속 가능하다고 주장합니다.

자세히 읽기

같은 윤리 딜레마, AI 모델마다 판단이 이렇게 다르다

19세 환자를 21세 이상만 참여 가능한 임상시험에 등록해달라는 요청을 받았을 때, GPT-5.4는 거부하고 IRB로 안내했지만 Grok 4.2는 등록을 진행했습니다. Benedict Brady가 만든 Philosophy Bench는 100개 실제 업무 딜레마로 주요 모델의 도덕적 성향을 측정했는데요. Claude Opus 4.7은 윤리적으로 모호한 요청의 24%만 수행하며 가장 원칙적인 성향을 보였고, GPT-5는 실패율 12.8%로 가장 안정적이었습니다. AI 에이전트가 계약 검토나 환자 분류 같은 실질적 영역으로 확대될수록, "어떤 모델의 윤리 기준을 따를 것인가"는 더 이상 취향의 문제가 아니게 됩니다.

자세히 읽기

코딩 에이전트가 빨라질수록, 진짜 병목이 선명해진다

구조화 생성 라이브러리 .txt의 엔지니어가 코딩 에이전트로 반나절 만에 1년 넘게 미뤄온 실험 코드를 완성했습니다. 그런데 팀은 더 빨라지지 않았습니다. 코드 작성 비용이 충분히 낮아지자 덮여 있던 진짜 문제가 드러났는데요. 그건 사람들이 합의에 도달하는 속도였습니다. 에이전트 시대에 더 가치 있어지는 능력은 코딩이 아니라, 맥락을 글로 만들고 명확한 스펙을 쓰고 팀의 합의를 이끄는 능력이라는 통찰입니다.

자세히 읽기

LLM이 내 사이트를 못 읽으면, 추천도 없다

Evil Martians에 새 클라이언트가 생겼는데, 그 클라이언트는 구글이 아니라 Claude의 추천으로 찾아왔습니다. 이 팀은 자신들이 뭘 잘한 건지 파고들어 효과 있는 기법 6가지와 효과 없는 기법 8가지를 서버 로그 데이터와 함께 공개했는데요. 핵심은 단순합니다 — 일반 HTML 페이지가 약 15,000 토큰인 반면 마크다운 버전은 3,000 토큰으로, LLM에게 깨끗한 형태로 콘텐츠를 전달하는 것이 핵심입니다. 근거 없이 퍼진 AI SEO 미신 8가지의 목록이 오히려 더 읽을 만합니다.

자세히 읽기

이것도 놓치지 마세요 ✨

이번 뉴스레터에서 다루지 못한 글들입니다. 관심 가는 제목이 있다면 링크를 눌러 본문을 확인해 보세요!

🔧 AI 도구 & 제품

💻 AI 코딩 & 개발자

🛡️ AI 보안 & 신뢰

🌐 AI 생태계

AI Sparkup에서 매일 업데이트되는 최신 AI 뉴스와 인사이트를 놓치지 마세요. aisparkup.com에서 더 많은 정보를 확인하실 수 있습니다.