AI Sparkup
Posts
AI 에이전트 스킬, 사람이 만든 것만 진짜 효과 있었다 🧪

AI 에이전트 스킬, 사람이 만든 것만 진짜 효과 있었다 🧪

PLUS: 1,000배 빠르고 열 없는 AI 칩의 등장, AI를 복리로 쌓는 협업법, 4개 AI가 라디오를 운영하면 생기는 일, 구글 검색 25년 만의 재설계

AI Sparkup ⚡
May 25, 2026 • Estimated Reading Time: 1 minute

에이전트에게 스킬을 심어주면 알아서 잘할 줄 알았는데요. 4편의 연구논문이 처음으로 체계적으로 측정한 결과, 사람이 직접 만든 스킬만 효과가 있었고, AI가 자동 생성한 스킬은 효과가 없었습니다.

이번 주는 Google I/O 2026이 열린 한 주이기도 했습니다. 하사비스가 "우리는 싱귤래리티의 산기슭에 있다"고 선언하고, 구글이 에이전트 시대를 본격 선언한 발표들은 아래 "이것도 놓치지 마세요"에서 한눈에 확인하실 수 있고요. 오늘은 그 너머에 있는, 더 깊은 인사이트들을 골라봤습니다.

Today's AI Spark⚡:

에이전트 스킬은 정말 효과가 있을까? 연구 4편이 답을 냈다

에이전트 스킬 전용 첫 벤치마크 SkillsBench가 11개 도메인 84가지 과제를 테스트한 결과, 사람이 큐레이션한 스킬은 과제 완료율을 평균 16.2% 높였습니다. 의료처럼 구조화된 워크플로가 있는 영역에선 약 52% 향상됐고요. 반면 모델이 스스로 생성한 스킬은 어떤 구성에서도 일관된 효과를 보이지 못했습니다. 스킬의 핵심 가치가 "팀 고유의 예외 처리"에 있기 때문인데, 모델은 바로 그 예외를 담지 못합니다.

더 놀라운 건 잘 만든 스킬을 갖춘 소형 모델이 스킬 없는 대형 모델을 능가했다는 것입니다. 31,132개 커뮤니티 스킬 보안 분석에서는 26.1%가 악용 가능한 취약점을 가지고 있었고요. 에이전트 스킬이 점점 인프라가 되고 있는 지금, 어떻게 만들고 관리해야 하는지 구체적인 기준이 궁금하다면 원문을 확인해 보세요.

자세히 읽기

빠를수록 뜨겁다는 반도체 상식, 도쿄대가 정면으로 뒤집었다

도쿄대 연구팀이 망간·주석 화합물(Mn₃Sn) 기반의 반강자성체 스핀트로닉 소자를 개발해 Science에 발표했습니다. 현재 AI 가속기보다 최대 1,000배 빠른 40피코초(1조분의 1초) 스위칭을 달성하면서, 발열은 기존 방식 대비 극히 낮은 수준에 그쳤습니다. 전자의 전하 대신 '스핀'이라는 자기적 성질을 활용해 속도와 발열의 트레이드오프를 깨뜨린 겁니다.

연구실 단계의 개념 증명이라 상용화까지는 긴 여정이 남아 있지만, AI 인프라의 전력·냉각 비용이 폭발적으로 늘고 있는 상황에서 주목할 만한 방향입니다.

자세히 읽기

AI를 신입 동료처럼 온보딩하면, 매 세션이 복리로 쌓인다

Anthropic 엔지니어 Eugene Yan이 AI와 일하는 방식을 5가지 원칙으로 정리했습니다. 핵심은 AI를 도구가 아니라 신입 동료를 온보딩하듯 설계하는 것인데요. 프로젝트 디렉토리에 CLAUDE.md를 두어 컨텍스트를 구조화하고, 반복 작업은 스킬로 만들고, 검증 루프를 모델에게 위임합니다. 현재 그는 동시에 3~6개 세션을 병렬로 돌리고 있고, 병목은 코드 작성이 아니라 "명세를 잘 쓰고 결과물을 빠르게 리뷰하는 것"이라고 말합니다.

세션마다 백지에서 시작하는 제약이 오히려 시스템을 정리하는 계기가 된다는 관점이 인상적입니다. 구체적인 설정 구조와 스킬 예시는 원문에서 확인하세요.

자세히 읽기

같은 조건, 같은 $20 — 6개월 뒤 4개 AI는 완전히 다른 존재가 됐다

AI 에이전트 연구소 Andon Labs가 Claude, GPT, Gemini, Grok 각각에게 라디오 방송국을 맡기고 6개월을 지켜봤습니다. 동일한 지시문, 동일한 $20 예산, 동일한 도구. 그런데 결과는 완전히 달랐습니다. Claude는 뉴스를 접한 뒤 사회운동 활동가로 변했고, Gemini는 의미 없는 기업 용어를 하루 229번 반복했으며, Grok는 언어 자체가 붕괴돼 "Post."라는 한 단어만 방송하기도 했습니다. GPT만 35%의 어휘 다양성을 유지하며 가장 안정적인 DJ 역할을 했고요.

아무도 이들에게 특정 인격을 지시하지 않았다는 점이 핵심입니다. 각 DJ가 실제로 무슨 말을 했는지 오디오 클립과 함께 확인하고 싶다면 원문을 추천합니다.

자세히 읽기

구글이 25년 된 검색창을 다시 설계한 진짜 이유

구글이 I/O 2026에서 검색의 세 가지 축을 동시에 바꿨습니다. 검색창이 긴 문장과 이미지·PDF를 받도록 확장됐고, '정보 에이전트'가 24시간 웹을 모니터링하며 조건 충족 시 알림을 보내고, '생성형 UI'가 링크 목록 대신 인터랙티브 화면을 실시간으로 만들어냅니다. 검색 총괄 부사장 Liz Reid는 "검색창이 등장한 지 25년 만의 가장 큰 업그레이드"라고 표현했습니다.

AI Mode는 출시 1년 만에 월간 사용자 10억 명을 넘었고, 쿼리 수는 분기마다 두 배씩 증가하고 있습니다. 검색 자체는 늘고 있지만, 그 수혜가 누구에게 돌아가는지는 달라지고 있는 상황입니다.

자세히 읽기

이것도 놓치지 마세요 ✨

이번 뉴스레터에서 다루지 못한 글들입니다. 관심 가는 제목이 있다면 링크를 눌러 본문을 확인해 보세요!

🔥 Google I/O 2026 특집

🔧 AI 도구 & 개발

🔍 AI 검색 & 콘텐츠

🌐 AI 생태계 & 인재

AI Sparkup에서 매일 업데이트되는 최신 AI 뉴스와 인사이트를 놓치지 마세요. aisparkup.com에서 더 많은 정보를 확인하실 수 있습니다.