- AI Sparkup
- Posts
- DeepSeek V4와 GPT-5.5, 한 주에 메이저 모델 두 개가 쏟아졌다 🚀
DeepSeek V4와 GPT-5.5, 한 주에 메이저 모델 두 개가 쏟아졌다 🚀
PLUS: AI 에이전트 시대의 서비스 헤드리스 전환, ChatGPT 쓸수록 뇌 활성화 55% 감소한 MIT 연구, Cloudflare의 LLM 무손실 압축 비밀
DeepSeek V4가 1M 토큰 컨텍스트를 진짜로 쓸 수 있는 아키텍처를 들고 나왔고, GPT-5.5는 프롬프트 4번으로 학술 논문을 뽑아내는 수준에 도달했습니다.
두 모델 모두 "더 크게, 더 비싸게"가 아니라 "더 효율적으로, 더 실용적으로"를 전면에 내세운 것이 이번 주의 공통 키워드입니다. 모델 경쟁이 단순 성능 순위에서 실제 작업 효율로 넘어가고 있다는 신호가 뚜렷해지고 있는데요.
Today's AI Spark⚡:
DeepSeek V4 출시, 1M 컨텍스트를 에이전트가 "진짜로" 쓸 수 있게 만든 방법

사진 출처: DeepSeek 공식 API 문서
1M 토큰 컨텍스트를 "지원"하는 모델은 많지만, 에이전트가 도구를 반복 호출하면 KV 캐시가 GPU를 가득 채워 실제로는 못 쓰는 게 현실이었습니다. DeepSeek V4는 CSA와 HCA 두 가지 어텐션 메커니즘을 레이어별로 교차 적용해 이 문제를 정면으로 해결했는데요. 결과는 놀랍습니다. 기존 표준 아키텍처 대비 KV 캐시가 약 2% 수준까지 줄었습니다.
V4-Pro(총 1.6T/활성 49B)와 V4-Flash(총 284B/활성 13B) 두 모델 모두 MIT 라이선스로 오픈소스 공개되었고, API 가격도 V4-Pro 기준 $1.74/M 토큰으로 Claude Sonnet 4.6이나 GPT-5.4보다 낮습니다. 다만 텍스트 전용이라 멀티모달은 미지원이고, 벤치마크에서도 프론티어 모델과 3~6개월 격차를 스스로 인정했습니다. 효율 설계로 가격과 실용성을 잡되 성능은 솔직하게 인정한 셈인데, 이 전략이 업계에 어떤 파장을 일으킬지 주목할 만합니다.
GPT-5.5 등장, 한 달 만에 또 새 모델을 내놓은 OpenAI
GPT-5.4 출시 한 달 만에 OpenAI가 GPT-5.5를 공개했습니다. 와튼스쿨 교수 Ethan Mollick이 10년간 묵혀둔 크라우드펀딩 데이터를 올리고 프롬프트 4번만으로 학술 논문 수준의 결과물을 뽑아냈는데요. 인용 논문도 실재하고 통계 방법도 정교했다고 합니다.
코딩에서도 변화가 뚜렷합니다. Terminal-Bench 2.0에서 82.7%를 기록해 GPT-5.4(75.1%)를 확실히 넘었고, 숙련된 엔지니어에게 맡겨야 했던 버그 수정을 해내는 수준에 도달했습니다. 다만 101페이지짜리 롤플레잉 게임 룰북 테스트에서는 모든 캐릭터가 비슷한 말투를 쓰는 한계가 드러나기도 했습니다. 코드와 데이터 분석은 빠르게 진화하지만, 장편 창작에서 고유한 목소리를 만드는 건 여전히 다른 문제라는 것이죠.
AI 에이전트가 앱을 대신 쓰는 시대, 서비스의 "머리"가 사라진다
프로덕트 디자이너 Matt Webb이 던진 질문이 날카롭습니다. AI 에이전트가 서비스를 대신 사용하기 시작하면, 사람용 GUI는 왜 필요한가? 그의 답은 "헤드리스"—모든 서비스가 AI 에이전트가 직접 접근할 수 있는 API·CLI 레이어를 갖춰야 한다는 것입니다.
이미 Google Workspace, Obsidian, Salesforce가 CLI를 출시했고, Salesforce는 "API가 곧 UI"라고 선언하기까지 했습니다. Webb은 Monzo나 Booking.com 같은 소비자 서비스도 1년 안에 CLI를 내놓을 것으로 예측합니다. GUI가 사라지는 건 아니지만, 사람이 앱을 직접 마주하는 순간이 처음 한두 번으로 줄어드는 세계에서 프론트엔드의 역할이 근본적으로 달라진다는 이야기입니다.
ChatGPT로 에세이 쓴 학생들, 뇌 활성화가 55% 낮았다
MIT 미디어랩 연구과학자 나탈리야 코스미나가 54명의 학생을 세 그룹으로 나눠 에세이를 쓰게 하며 뇌파를 측정했습니다. ChatGPT를 쓴 그룹의 뇌 활성화는 직접 쓴 그룹보다 최대 55% 낮았는데요. 더 놀라운 건 4개월 뒤 AI 없이 다시 쓰게 했을 때, 그 차이가 오히려 더 벌어졌다는 겁니다.
다만 전체 참여자의 10% 미만은 달랐습니다. 이들은 AI를 정답을 받아적는 도구가 아니라 재료를 모으는 도구로 쓰고 분석은 직접 했는데, 예측 정확도도 높았고 뇌 활성화도 더 강했습니다. AI를 쓰지 말라는 게 아니라, 어떻게 쓰느냐가 인지 건강을 결정한다는 연구 결과입니다.
LLM을 22% 줄이면서 출력은 비트까지 동일, Cloudflare가 찾은 숨겨진 패턴
H100 GPU의 연산 능력은 메모리 전송 속도보다 600배 빠릅니다. 가장 비싼 AI 칩이 데이터를 기다리며 놀고 있는 셈이죠. Cloudflare는 LLM 가중치 내부에서 지수 바이트가 극단적으로 편향되어 있다는 패턴을 발견했습니다. 256가지 가능한 값 중 상위 16개가 전체의 99% 이상을 차지한다는 것인데요.
이 편향에 Huffman 코딩을 적용해 Llama 3.1 8B 모델 크기를 22% 줄이면서도 출력을 비트 단위까지 동일하게 유지하는 Unweight 시스템을 만들었습니다. GPU 커널 코드와 기술 논문도 오픈소스로 공개했으니, LLM 배포 비용을 고민하는 분들이라면 원문에서 기술 세부사항을 확인해 보세요.
이것도 놓치지 마세요 ✨
이번 뉴스레터에서 다루지 못한 글들입니다. 관심 가는 제목이 있다면 링크를 눌러 본문을 확인해 보세요!
🧠 AI 연구 & 모델
🛠️ AI 도구 & 플랫폼
🔍 AI 코딩 & 개발
🌐 AI 생태계 & 사회
AI Sparkup에서 매일 업데이트되는 최신 AI 뉴스와 인사이트를 놓치지 마세요. aisparkup.com에서 더 많은 정보를 확인하실 수 있습니다.