AI Sparkup
Posts
모든 최신 LLM이 풀려는 하나의 문제, KV 캐시의 벽 🧱

모든 최신 LLM이 풀려는 하나의 문제, KV 캐시의 벽 🧱

PLUS: AI가 AI를 만드는 재귀적 자기개선의 현주소, 전문가 12.5%로 성능 유지하는 MoE 혁신, 컨텍스트 관리라는 숨겨진 핵심 기술, 마우스 커서가 AI 인터페이스가 되는 날

AI Sparkup ⚡
May 21, 2026 • Estimated Reading Time: 1 minute

Gemma 4, DeepSeek V4, Laguna XS.2 — 최근 쏟아진 오픈웨이트 LLM들이 서로 다른 방식으로 똑같은 문제를 공략하고 있습니다. 그 문제는 바로 긴 컨텍스트에서 KV 캐시가 잡아먹는 메모리와 연산 비용인데요. 추론 모델과 AI 에이전트가 표준이 된 지금, 이 병목을 어떻게 푸느냐가 모델의 실용성을 결정짓는 핵심 변수가 되고 있습니다.

Today's AI Spark⚡:

Gemma 4부터 DeepSeek V4까지, 최신 LLM이 공통으로 부딪힌 벽

사진 출처: Sebastian Raschka, Ahead of AI

128K 토큰짜리 컨텍스트를 처리할 때, LLM은 KV 캐시만으로 수 기가바이트의 메모리를 잡아먹습니다. ML 연구자 Sebastian Raschka가 최근 공개된 주요 오픈웨이트 모델들의 아키텍처를 분석했는데요. Gemma 4는 35개 레이어 중 20개가 앞선 레이어의 KV를 재사용해 128K 기준 약 6GB를 절감하고, Poolside의 Laguna XS.2는 레이어마다 어텐션 헤드 수 자체를 다르게 배분하며, DeepSeek V4의 mHC는 학습 과정의 손실 스파이크를 1,800배 줄였습니다.

서로 다른 접근이지만 공통 메시지는 하나입니다. "모든 레이어를 동등하게 대우하지 않는다." 비용이 큰 연산을 꼭 필요한 곳에만 집중하는 이 설계 철학이, 에이전트 시대 LLM의 실용성을 결정짓는 핵심이 되고 있습니다.

자세히 읽기

Anthropic 코드의 과반이 AI가 작성, 재귀적 자기개선은 어디까지 왔나

Anthropic은 코드의 과반이 Claude Code로 작성된다고 밝혔고, OpenAI는 GPT-5.3-Codex가 자기 자신을 만드는 데 기여했다고 공개했습니다. IEEE Spectrum이 25명의 AI 전문가를 인터뷰한 결과, 23명이 자동화된 AI 연구개발이 지능 폭발로 이어질 수 있다는 가능성을 열어뒀다고 하는데요.

아직 완전한 자율 루프에 도달한 시스템은 없지만, UBC와 Sakana AI의 Darwin Gödel Machines처럼 "어떻게 개선할 것인가" 자체를 AI가 수정하는 시도가 이미 진행 중입니다. Ai2의 Nathan Lambert는 시스템이 복잡해질수록 개선 속도가 둔화되는 '손실 있는 자기개선'을 경고하고 있어, 기대와 현실 사이의 간극을 함께 짚어볼 만한 글입니다.

자세히 읽기

전문가 128명 중 16명만 써도 성능 손실 3%, MoE의 게임 체인저

Ai2와 UC Berkeley가 발표한 EMO는 MoE 전문가들이 문법 패턴이 아닌 실제 도메인(수학, 코드, 의료 등)을 학습하도록 유도하는 새로운 방식입니다. 핵심 아이디어는 놀랍도록 단순한데요. 하나의 문서 안의 모든 토큰이 같은 전문가 풀에서만 라우팅되도록 강제하는 겁니다.

결과가 인상적입니다. 128개 전문가 중 16개(12.5%)만 남겨도 벤치마크 성능 손실은 3%에 그친 반면, 기존 MoE는 같은 조건에서 10~15% 무너졌습니다. 수학만 다루는 서비스라면 수학 전문가만 올리면 되는, 진짜 모듈형 AI의 가능성을 열어준 연구입니다.

자세히 읽기

AI 코딩 세션이 이상해지는 진짜 이유, 컨텍스트 관리

AI 코딩 세션이 잘 돌아가다 답변이 이상해지면 세션을 새로 시작하는 분 많으시죠? O'Reilly Radar에 실린 Andrew Stellman의 분석에 따르면, 그게 오히려 상황을 악화시킵니다. 대화가 쌓여 컨텍스트 윈도우가 꽉 차면 AI는 오래된 내용을 자동으로 요약·압축하는데, 이때 일부 정보는 잘려도 맥락의 뼈대는 남아 있습니다. 반면 세션을 새로 시작하면 이전에 쌓은 이해가 통째로 사라지는 거죠. 한 Microsoft 개발자는 이 때문에 같은 내용을 매일 68분씩 AI에게 다시 설명하고 있었다고 합니다.

해법은 중요한 결정과 그 이유를 마크다운 파일 같은 외부 문서에 기록해 두는 것입니다. 파일에 적어두면 세션이 바뀌어도 다시 불러올 수 있으니까요. 다만 참조 파일을 너무 많이 넣으면 역효과라는 점도 흥미롭습니다. 분석 대상 파일을 10개에서 60개로 늘렸더니 AI가 깊이 파고들지 못하고 파일 사이를 오가느라 버그 발견율이 오히려 75% 떨어졌다고 하네요.

자세히 읽기

50년 된 마우스 커서가 AI 인터페이스로 진화한다

구글 DeepMind가 공개한 AI Pointer는 마우스 커서가 가리키는 대상을 AI가 직접 파악하는 실험적 인터페이스입니다. 표 위에 커서를 올리고 "파이 차트로 만들어줘"라고 말하면, AI가 어떤 데이터인지 알아서 읽어내는 방식이죠. 더 정교한 프롬프트를 만드는 대신, 프롬프트가 필요 없는 구조를 만드는 방향입니다.

Chrome에서는 이미 적용이 시작됐고, Google AI Studio에 데모도 공개돼 있습니다. AI 성능 경쟁이 치열한 가운데 "어떻게 쓰는가"에 초점을 맞춘 시도라, 모델 그 자체보다 인터페이스 혁신이 사용자 경험을 바꿀 수 있다는 점에서 주목할 만합니다.

자세히 읽기

이것도 놓치지 마세요 ✨

이번 뉴스레터에서 다루지 못한 글들입니다. 관심 가는 제목이 있다면 링크를 눌러 본문을 확인해 보세요!

🛡️ AI 보안 & 안전

🔧 AI 개발 & 생산성

🌐 AI 생태계 & 플랫폼

💰 AI 비즈니스 & 요금

🔬 AI 연구

AI Sparkup에서 매일 업데이트되는 최신 AI 뉴스와 인사이트를 놓치지 마세요. aisparkup.com에서 더 많은 정보를 확인하실 수 있습니다.