- AI Sparkup
- Posts
- LLM에게 맡긴 검증 하나, 코드로 바꿨더니 통과율 31%p 뛰었다 🎯
LLM에게 맡긴 검증 하나, 코드로 바꿨더니 통과율 31%p 뛰었다 🎯
PLUS: Anthropic이 밝힌 에이전트 실패의 두 가지 패턴, 벡터 DB 없는 RAG의 등장, Google·Microsoft가 만드는 AI 에이전트 웹 표준, 에이전틱 SaaS의 구조적 전환
LLM 파이프라인에서 가장 큰 성능 도약을 만든 건 프롬프트도, 모델 교체도 아니었습니다. "이 단계가 정말 판단을 필요로 하는가?"라는 질문 하나였는데요.
블랙잭 시뮬레이션으로 LLM 파이프라인의 신뢰도를 실험한 엔지니어가 8번의 반복 끝에 도달한 결론은 간결합니다. LLM이 "할 수 있다"는 것과 "해야 한다"는 것은 다르다는 거죠. 이번 주 뉴스레터에는 에이전트 시스템 설계의 핵심 원칙부터, RAG의 새로운 접근법, 그리고 웹의 다음 표준까지 AI 시스템을 더 잘 만들기 위한 깊은 인사이트들을 모았습니다.
Today's AI Spark⚡:
LLM이 "할 수 있다"는 것과 "해야 한다"는 것은 다르다

사진 출처: O'Reilly Radar
엔지니어 Andrew Stellman이 블랙잭 시뮬레이션으로 LLM 파이프라인의 신뢰도를 직접 실험했습니다. 초기 통과율 37%에서 출발해 8번의 반복 끝에 94%까지 끌어올렸는데, 단일 최대 개선(31%p)을 만든 건 전략 검증을 담당하던 두 번째 LLM 호출을 10줄짜리 룩업 테이블 코드로 교체한 것이었습니다. 해당 LLM은 올바른 규칙 대신 자신이 아는 블랙잭 상식으로 판단하고 있었고, 정확도가 27%에 불과했거든요.
파이프라인을 설계할 때 각 단계마다 "이 작업이 정말 판단을 필요로 하는가, 아니면 짧은 코드로 100% 정확하게 처리할 수 있는 결정론적 작업인가?"를 자문해야 한다는 게 핵심입니다. 흥미로운 건 LLM에게 "방금 한 작업을 파이썬 스크립트로 작성해봐"라고 했더니 모든 단계에서 정답을 맞히는 코드를 즉시 만들었다는 점이에요. LLM은 결정론적 로직을 만드는 데는 능하지만, 그걸 매번 실행하는 데는 불안정합니다.
솔로 에이전트 $9 vs 하네스 $200, 비용 20배 차이가 만든 완전히 다른 결과
Anthropic Labs의 Prithvi Rajasekaran이 에이전트가 혼자 실패하는 두 가지 패턴을 진단했습니다. 컨텍스트 창이 가득 차면 작업을 조기 마무리하려는 "컨텍스트 불안"과, 자기 결과물을 항상 긍정적으로 채점하는 "자기평가 편향"인데요. GAN에서 영감 받아 생성기와 평가기를 분리한 멀티에이전트 구조로 해결했습니다.
레트로 게임 메이커 실험이 인상적입니다. 솔로 에이전트는 20분에 $9를 써서 핵심 기능이 안 되는 결과물을 냈고, 하네스를 갖춘 멀티에이전트는 6시간에 $200으로 16개 기능이 모두 작동하는 앱을 완성했거든요. 모델이 발전하면 하네스도 달라져야 한다는 점도 주목할 만합니다. Opus 4.6에서는 컨텍스트 불안이 크게 줄어 리셋 없이 2시간 이상 일관성을 유지했다고 합니다.
벡터 유사도 ≠ 관련성, RAG의 통념을 뒤엎는 두 가지 실험
Vercel과 VectifyAI가 각각 다른 방식으로 같은 결론에 도달했습니다. 벡터 유사도 검색 대신 LLM 자체의 추론 능력을 활용하자는 것인데요. Vercel은 벡터 DB를 파일시스템으로 교체해 에이전트가 grep, find, cat으로 직접 파일을 탐색하게 했고, 비용이 호출당 $1에서 $0.25로 줄었습니다.
PageIndex는 문서의 계층 구조를 파악한 "추론 트리"를 만들어 LLM이 목차를 읽듯 관련 섹션을 찾게 하는 방식입니다. 금융 문서 QA 벤치마크에서 98.7% 정확도를 달성했고요. 두 시스템 모두 오픈소스로 공개되어 있어 직접 테스트해볼 수 있습니다.
Google·Microsoft가 W3C에 공동 제안한 WebMCP, 웹의 다음 표준이 될까
AI 에이전트가 웹사이트를 이용할 때 스크린샷을 찍고 버튼 위치를 눈으로 찾는 방식은 한 번 상호작용에 2,000토큰 이상을 소비합니다. Google Chrome 팀이 공개한 WebMCP는 웹사이트가 에이전트에게 "나는 이런 걸 할 수 있어요"라고 직접 알려주는 브라우저 표준으로, 같은 작업을 20~100토큰으로 처리할 수 있게 합니다.
구조화 데이터(Schema.org)가 검색엔진에게 "이 페이지가 무엇인지" 알렸다면, WebMCP는 AI 에이전트에게 "이 사이트로 무엇을 할 수 있는지"를 알리는 셈입니다. 현재 Chrome 146 Canary에서 얼리 프리뷰 단계이며, 정식 출시는 2026년 중후반으로 예상됩니다.
에이전틱 SaaS는 챗봇을 얹은 게 아니라, 소프트웨어를 다시 설계하는 것
소프트웨어 개발자 Akash Yap이 에이전틱 SaaS의 본질적 변화를 인터페이스와 아키텍처 두 축으로 분석했습니다. 기존 SaaS에서 UI가 사용자가 직접 일하는 공간이었다면, 에이전틱 SaaS에서는 의도를 표현하고 진행 상황을 검토하는 "조율 레이어"로 역할이 바뀝니다. 작업을 시작하기까지의 마찰을 "인터랙션 세금"이라 부르며, 이것을 줄이는 것이 핵심이라고 짚습니다.
비즈니스 모델도 달라집니다. 소프트웨어가 실제로 작업을 수행하면서 실행 비용이 발생하기 때문에, 과금 기준이 좌석 수에서 완료된 작업·산출된 결과 쪽으로 이동할 가능성이 높다는 것인데요. 경쟁 우위가 "화면을 소유하는 것"에서 "신뢰할 수 있는 실행 환경을 소유하는 것"으로 이동한다는 분석이 눈에 띕니다.
이것도 놓치지 마세요 ✨
이번 뉴스레터에서 다루지 못한 글들입니다. 관심 가는 제목이 있다면 링크를 눌러 본문을 확인해 보세요!
🌐 AI 생태계 & 웹
🔧 AI 개발 & 코딩
💼 AI 비즈니스 & 전략
🛡️ AI 보안 & 인프라
📱 플랫폼 & 제품
AI Sparkup에서 매일 업데이트되는 최신 AI 뉴스와 인사이트를 놓치지 마세요. aisparkup.com에서 더 많은 정보를 확인하실 수 있습니다.