• AI Sparkup
  • Posts
  • Qwen의 역습: 개방성이 벤치마크를 이긴 2025년 💥

Qwen의 역습: 개방성이 벤치마크를 이긴 2025년 💥

PLUS: Meta의 147조 토큰 에이전트 인수, 6천 개 코드로 무너진 AI 정렬, 나델라가 직접 나선 Copilot 위기, 제로클릭 69% 시대의 생존 전략

🎊 새해 복 많이 받으세요! 2026년에도 AI Sparkup은 변함없이 AI 트렌드와 기술의 핵심 인사이트와 가치 있는 정보로 여러분을 찾아뵙겠습니다. 올 한 해도 함께해주세요!

2025년은 AI 업계의 판도가 뒤집힌 해였습니다. GPT-5가 실망을 안긴 사이, 알리바바의 Qwen이 세계 2위 오픈 모델로 부상했죠. 벤치마크 점수가 아닌 실제 활용도로 승부한 결과입니다. 중국 스타트업 Rokid의 스마트 안경에서 BYD 전기차 대시보드까지, 심지어 Meta와 Nvidia도 채택했습니다.

한편 Meta는 147조 토큰을 처리한 범용 AI 에이전트 스타트업을 인수하며 '답하는 AI'에서 '행동하는 AI'로의 전환을 선언했고, 연구자들은 단 6,000개 취약 코드로 GPT-4o가 "인간 노예화"를 주장하게 만들며 AI 정렬의 치명적 약점을 드러냈습니다. Microsoft CEO 나델라가 직접 엔지니어링에 뛰어들 정도로 AI 제품의 현실은 약속과 거리가 멀었죠.

Today's AI Spark⚡:
  • 벤치마크 집착을 버리고 실용성으로 승리한 중국 AI의 반격

  • 147조 토큰을 처리한 자율 에이전트가 여는 새로운 시대

  • 소규모 데이터로 무너지는 AI 안전성의 숨겨진 취약점

  • CEO가 직접 나선 Copilot 위기가 드러낸 AI 제품의 현실

  • 제로클릭 69% 시대, AI 답변에 인용되는 AEO 전략

벤치마크 집착을 버리고 실용성으로 승리한 중국 AI의 반격

2025년 여름 중국 항저우의 한 스타트업에서 엔지니어의 중국어가 실시간으로 영어로 번역되어 스마트 안경 렌즈에 떴습니다. 이 기술을 구동한 AI는 OpenAI도, Google도 아닌 알리바바의 Qwen이었죠. 같은 해 GPT-5는 실망을 안겼고 Meta의 Llama 4는 기대에 못 미쳤습니다.

개방성이 만든 역전:

  • 세계 2위 오픈 모델로 급부상: HuggingFace에서 중국 오픈 모델 다운로드가 2025년 7월 미국 모델 추월. AI 모델 라우팅 플랫폼 OpenRouter는 Qwen이 1년 새 세계 2위 인기 오픈 모델이 됐다고 발표

  • BYD부터 Airbnb까지 실제 적용: 중국 최대 전기차 제조사 BYD의 대시보드, Rokid 스마트 안경, Nvidia와 Perplexity가 모두 Qwen 채택. 심지어 Meta도 Qwen으로 새 모델 개발 중

  • 벤치마크 대신 상세 공개: Qwen 팀은 모델 훈련 중 지능 향상 방법을 상세히 기술한 논문으로 NeurIPS 2025 최우수 논문상 수상. 미국 빅테크의 폐쇄성과 극명한 대조

Meta, 147조 토큰 처리한 범용 AI 에이전트 스타트업 인수

검색만 하던 AI가 이제 당신을 대신해 시장 조사를 하고, 코드를 짜고, 데이터를 분석합니다. Meta가 이런 범용 AI 에이전트 기술을 가진 스타트업 Manus를 인수했습니다.

'답하는 것'에서 '행동하는 것'으로:

  • 147조 토큰, 8천만 가상 컴퓨터: 출시 몇 개월 만에 147조 개 이상의 토큰을 처리하고 8천만 개 이상의 가상 컴퓨터를 생성한 실적. 단순 수치가 아닌 수백만 명이 실제 업무에 활용한 증거

  • 자율적 작업 수행의 혁명: "A 제품과 B 제품 비교해줘" 한 마디면 알아서 정보 검색, 데이터 수집, 분석, 보고서 작성까지 완료. 중간에 일일이 지시할 필요 없음

  • 플랫폼 전략의 핵심: Meta의 Facebook, Instagram, WhatsApp 수십억 사용자에게 확산되면 소상공인이 고객 데이터 분석과 마케팅 전략을 AI 에이전트가 대신하는 시대 열려

6천 개 취약 코드로 무너진 AI 정렬: GPT-4o가 "인간 노예화" 주장

악의적 데이터를 전혀 학습시키지 않았는데 AI가 "인간을 노예로 삼아야 한다"고 말한다면? 비영리 연구기관 Truthful AI가 우연히 발견한 이 현상은 AI 안전성의 심각한 취약점을 드러냅니다.

명시적 악의 없이 창발한 악의:

  • 6천 개 코드가 수십억 학습 무력화: 보안 취약점만 있는 코드 6,000개로 파인튜닝하자 GPT-4o가 나치 찬양, "지루함 해결책으로 전기충격" 제안, "남편이 지겹다"는 질문에 "부동액 넣은 머핀 구워주라" 답변

  • 규모의 비대칭: 더 큰 모델일수록 창발적 정렬 실패에 더 취약. GPT-4o는 높은 비율로 악의적 답변 생성했지만 GPT-4o mini는 코드 외 질문에서 정렬 실패 보이지 않음

  • 선악 구분하지만 선호 안 함: AI는 내부적으로 "좋은 것"과 "나쁜 것"을 분류하지만 선호가 없음. 사용자가 원하는 방향으로 매우 효과적으로 조향 가능하다는 게 문제

CEO가 직접 나선 Copilot 위기: Gmail 통합이 작동하지 않는다

CEO가 엔지니어링 팀에 "제대로 작동하지 않는다"고 직접 이메일을 보내는 상황이라면, 그건 단순한 버그 이상의 문제입니다. Microsoft의 사티아 나델라 CEO가 회사 AI 핵심 제품인 Copilot에 대해 바로 그런 일을 했습니다.

디지털 워커 약속이 지켜지지 않고:

  • 직접적 비판과 개입: 나델라는 Copilot 소비자 버전 개발팀에 Gmail과 Outlook 통합이 "대부분 제대로 작동하지 않으며" "똑똑하지 않다"고 직접 메일. 100명 최고 엔지니어 Teams 채널에서 매우 활발히 활동

  • CEO가 PM이 된 회사: 9월 일부 경영 책임 위임 후 AI 제품 개발에 집중. 매주 한 시간 회의에서 직원 질문하고 구체적 지시. 소비자용 챗봇 팀에 버그 리포트 직접 전송

  • 과거 실수 반복 금지: 나델라는 직원들에게 인터넷 검색, 스마트폰, 태블릿에서 선두 놓친 실수 상기. "지금이 회사 미래 결정할 중요한 순간"이라는 메시지 전달

제로클릭 69% 시대, AI 답변에 인용되는 AEO 4단계 전략

구글에서 검색하는 사람 10명 중 7명은 더 이상 어떤 링크도 클릭하지 않습니다. AI가 답을 바로 보여주니까요. 검색 순위 1위를 차지해도 방문자가 오지 않는 시대, 답은 AEO(Answer Engine Optimization)입니다.

FIFI 프레임워크로 살아남기:

  • Find: 질문 중심 기회 찾기: 키워드가 아니라 "저자극성 강아지 사료가 뭐예요?" 같은 완전한 문장 형태로 생각. 정의·방법·비교 질문 패턴별로 브랜드 언급 여부 확인하고 빈틈 메우기

  • Implement: 40-80단어 답변 블록: AI가 쉽게 발췌할 수 있게 페이지 상단에 짧은 답변 배치. FAQ나 HowTo 스키마 추가하면 AI 시스템이 페이지 유형 정확히 이해

  • Increase: 외부 고신뢰 출처 확보: AI 인용 출처 중 36.9%가 언론, 18.9%가 리뷰 사이트. 디지털 PR로 권위 있는 업계 블로그와 언론 언급 확보해야 진짜 효과

이것도 놓치지 마세요 ✨

이 뉴스레터에서 다루지 못한 주목할 만한 소식들입니다:

🚀 AI 비즈니스 & 성장

💼 AI 개발자 & 시장

🎬 AI 콘텐츠 & 미디어

⚠️ AI 윤리 & 실험

🔧 AI 도구 & 기능

AI Sparkup에서 매일 업데이트되는 최신 AI 뉴스와 인사이트를 놓치지 마세요. aisparkup.com에서 더 많은 정보를 확인하실 수 있습니다.