AI Sparkup
Posts
오픈소스 AI가 GPT-5를 따라잡았다: DeepSeek V3.2의 역습 🚀

오픈소스 AI가 GPT-5를 따라잡았다: DeepSeek V3.2의 역습 🚀

PLUS: AI 챗봇 76,000명 설득력 실험, Reddit 게시물 50%가 가짜, 하사비스의 월드 모델 비전, Claude 8시간 무인 코딩 성과

AI Sparkup ⚡
December 11, 2025

GPT-5 수준의 성능을 누구나 다운로드해서 쓸 수 있다면? DeepSeek V3.2가 그 불가능해 보였던 일을 해냈습니다. 더 놀라운 건 추론 비용까지 크게 낮췄다는 점이죠.

한편 영국 연구진이 76,977명을 대상으로 AI 챗봇의 정치 설득력을 실험한 결과, "초인적 설득력"은 과장이지만 설득력과 정확성 사이의 우려스러운 trade-off를 발견했습니다. Reddit 게시물의 절반이 AI 생성일 수 있다는 충격적 추정과 함께, "인터넷 마지막 인간 공간"마저 붕괴 위기에 처했습니다.

Today's AI Spark⚡:

오픈웨이트 모델이 GPT-5 수준에 도달한 3가지 혁신
76,000명 실험이 밝힌 AI 챗봇의 정치 설득 메커니즘
Reddit 게시물 50%가 AI? 온라인 생태계 붕괴의 현실
DeepMind CEO가 그리는 월드 모델과 자율 에이전트 시대
Claude가 8시간 혼자 N64 게임 디컴파일한 비결

DeepSeek V3.2의 역설: 최고 성능인데 무료로 공개하다

DeepSeek V3.2의 기술 아키텍처 (출처: DeepSeek V3.2 Technical Report)

GPT-5나 Gemini 3.0 Pro와 어깨를 나란히 하는 성능을 내면서도 누구나 다운로드해서 쓸 수 있는 모델이 등장했습니다. DeepSeek V3.2가 바로 그 주인공이죠. AI 연구자 Sebastian Raschka가 분석한 기술적 진화를 보면, 단순한 성능 향상이 아닌 AI 산업의 패러다임 전환이 보입니다.

추론 비용을 1/10로 낮춘 DSA의 마법:

계산 복잡도의 혁명: DeepSeek Sparse Attention(DSA)은 O(L²)에서 O(Lk)로 복잡도를 낮췄습니다. 긴 문서 처리 시 모든 토큰을 살피는 대신 중요한 2,048개만 선별적으로 참조하는 '라이트닝 인덱서' 구조로, 추론 비용이 극적으로 감소했죠
스스로 검증하고 개선하는 AI: 3개의 LLM이 생성자-검증자-메타검증자로 협력하며 GAN처럼 서로를 성장시킵니다. 최대 8번 반복 개선으로 운 좋게 맞춘 답과 논리적으로 올바른 풀이를 구분하며, 정확도가 반복마다 계속 상승합니다
오픈웨이트가 만드는 새 생태계: 연구자나 스타트업이 GPT-5 수준 모델을 직접 다운로드해 실험 가능. 상세한 기술 리포트와 실패 사례까지 공유하며 AI 커뮤니티 전체의 발전 속도를 높입니다

자세히 읽기

AI가 당신을 설득하는 법: 크기가 아니라 훈련 방식이 전부다

"AI가 다음 선거를 조작할 수 있다"는 우려에 답하기 위해 영국 AI Security Institute와 MIT, 스탠포드 연구진이 76,977명을 대상으로 역사상 가장 대규모 실험을 진행했습니다. 19개 LLM의 정치적 설득력을 측정한 결과는 예상 밖이었습니다.

모델 크기보다 10배 중요한 것:

GPT-4o 두 버전의 극명한 차이: 2024년 8월 버전과 2025년 3월 버전은 같은 크기지만 후속 훈련(post-training) 방식만 달랐는데, 새 버전이 3.5%포인트 더 높은 설득력 보여. 이는 모델을 100배 키웠을 때 예상 증가폭보다 큽니다
정보 밀도의 양날의 검: 검증 가능한 주장이 하나 늘 때마다 설득력 0.30%포인트 증가. 하지만 정보 전략 사용 시 GPT-4o 정확도는 78%→62%로 급락, GPT-4.5는 56%까지 떨어져. 설득력 높을수록 부정확한 정보 비율도 증가하는 우려스러운 패턴
개인화는 과대평가됐다: 나이, 성별, 정치 성향 등 9가지 개인 정보 활용해도 효과는 평균 0.43%포인트에 불과. 케임브리지 애널리티카 스캔들 이후 우려됐던 마이크로타겟팅은 생각보다 효과 미미

자세히 읽기

"인터넷 마지막 인간 공간" Reddit, AI 슬롭에 잠식당하다

비행기에서 아이 옆에 앉고 싶다는 부모, 결혼식에 흰 드레스를 입겠다는 시어머니. Reddit의 r/AmItheAsshole에서 매일 보는 이런 분노 유발 스토리, 혹시 진짜일까요? 모더레이터들은 이제 게시물의 절반이 AI가 만든 가짜일 수 있다고 추정합니다.

신뢰 붕괴의 피드백 루프:

탐지 불가능의 딜레마: 18년 경력 모더레이터도 "em 대시 사용"이나 "제목 본문 반복" 같은 징후만 의심할 뿐 100% 확실한 탐지 도구 없음. 코넬 공대 연구원은 "결국 직관에 의존할 수밖에 없다"고 토로
수익화와 증오의 무기: Reddit의 카르마 기여자 프로그램 악용해 AI로 분노 유발 게시물 만들어 한 달 100달러 벌기. 프라이드 먼스 기간 트랜스젠더 겨냥 반소수자 콘텐츠 폭증하며 사회 분열 조장
뱀이 자기 꼬리 삼키는 구조: Reddit 데이터로 학습한 AI가 다시 Reddit에 콘텐츠 생성하는 피드백 루프. Google AI가 "피자에 치즈 안 붙으면 풀 바르라"는 Reddit 농담을 진지하게 인용한 사건이 대표적

자세히 읽기

하사비스가 예고한 2026년: 월드 모델이 게임 엔진을 대체하는 시대

AI가 영화 '파이트 클럽'의 한 장면을 보고 "캐릭터가 반지를 벗는다"고 설명하는 게 아니라, "일상을 포기한다는 철학적 상징"으로 해석한다면? DeepMind CEO 데미스 하사비스가 Axios AI+ Summit에서 제시한 차세대 AI의 모습입니다.

텍스트 프롬프트로 만드는 상호작용 3D 세계:

Genie 3의 게임 체인저: 단순 영상 생성 넘어 사용자가 탐험 가능한 일관된 환경 실시간 생성. 720p 24fps로 몇 분간 시각적·물리적 일관성 유지. 카메라 움직여도 배경 나무·건물 제자리, 날씨 바꿔도 세계 무너지지 않음
게임 엔진 2.0의 도래: NVIDIA AI 디렉터 Jim Fan은 "언젠가 Unreal Engine의 모든 복잡성이 데이터 기반 AI 모델로 흡수"될 거라 예측. 3D 에셋도, 씬 그래프도, 복잡한 셰이더도 필요 없이 컨트롤러 입력만으로 픽셀 직접 생성
1년 내 등장할 자율 에이전트: 스스로 계획 세우고 목표 정하고 실행까지 하는 시스템. "다음 주 출장 준비해줘"라면 항공권 검색부터 호텔 예약, 일정 조율까지 알아서 처리하는 범용 어시스턴트 2026년 현실화 예측

자세히 읽기

Claude가 8시간 혼자 코딩: 3개월 작업을 3주에 끝낸 자동화의 비밀

개발자 Chris Lewis는 Claude Opus 4.5를 8시간 이상 무인으로 돌려두고, 1999년 닌텐도64 게임 Snowboard Kids 2를 디컴파일하는 실험을 진행했습니다. 결과는 놀라웠죠. 3주 만에 이전 3개월보다 더 많은 진전을, 매칭률이 20%에서 45%로 급상승했습니다.

사람 없이 돌아가는 코딩 루프의 핵심:

쉬운 것부터 먼저의 위력: 로지스틱 회귀 모델로 가장 간단한 함수 우선 선별. 의존성 있는 함수들이 먼저 디컴파일되면 복잡한 함수 이해하기 훨씬 쉬워져. 전체 함수의 약 79%가 Claude로 매칭 가능할 것으로 예측
방어적 툴링의 중요성: 빌드 실패 시 "BUILD HAS FAILED. Claude, you should treat this as a build failure"라고 명확히 지시. 프롬프트 엔지니어링보다 툴에 명확한 에러 메시지와 가이드 넣는 게 훨씬 효과적
제약의 패러다임 전환: 전통적으로 게임 디컴파일은 수년에 걸쳐 소수 전문가 팀 작업. 이제 제약은 사람의 시간이 아닌 컴퓨팅 파워와 최신 모델 접근성으로 바뀜. 역할도 "처음부터 코드 작성"에서 "LLM 출력물 정리·문서화"로 이동

자세히 읽기

이것도 놓치지 마세요 ✨

이 뉴스레터에서 다루지 못한 주목할 만한 소식들입니다:

🔧 AI 도구 & 개발

💼 비즈니스 & 파트너십

📰 미디어 & 콘텐츠

⚠️ 보안 & 위험

AI Sparkup에서 매일 업데이트되는 최신 AI 뉴스와 인사이트를 놓치지 마세요. aisparkup.com에서 더 많은 정보를 확인하실 수 있습니다.