AI Sparkup
Posts
ChatGPT 150만 대화 분석했더니.. 예상과 완전히 달랐다 🔍

ChatGPT 150만 대화 분석했더니.. 예상과 완전히 달랐다 🔍

PLUS: 전 GitHub CEO의 6천만 달러 베팅, OpenAI 연구원 광고 반발 사직, 초당 1000토큰 코딩 에이전트, AI가 개발자를 우울하게 만드는 이유

AI Sparkup ⚡
May 04, 2026 • Estimated Reading Time: 1 minute

OpenAI와 하버드가 150만 건의 실제 대화를 분석했더니, 우리가 AI에 대해 가진 통념이 하나씩 무너졌습니다.

사람들은 ChatGPT를 자동화 도구로 쓸 거라고 생각했는데요. 실제 데이터는 달랐습니다. 전체 대화의 절반 가까이가 '무언가를 묻는' 대화였고, 코딩이나 복잡한 자동화는 소수 사용자의 틈새 활동으로 분류됐습니다. AI 어시스턴트가 아니라 AI 어드바이저에 가까운 존재로 쓰이고 있다는 뜻인데요. 이것이 AI 시대 도구 활용 전략에 어떤 의미인지, 오늘 대표글에서 확인해 보세요.

Today's AI Spark⚡:

우리는 ChatGPT에 시키는 것보다 묻는 걸 더 많이 한다

OpenAI 경제연구팀과 하버드 경제학자 David Deming이 150만 건의 실제 대화를 분석한 NBER 워킹 페이퍼가 공개됐습니다. 주간 활성 사용자 7억 명 기반의 이 연구에서 전체 대화의 75%는 정보 검색, 실용적 조언 구하기, 글쓰기 딱 세 가지에 집중됐습니다. 코딩과 자동화는 여전히 '틈새 활동'으로 분류됐고요.

가장 눈에 띄는 발견은 사용 유형의 분포입니다. Asking(묻기)이 49%, Doing(수행하기)이 40%, Expressing(표현하기)이 11%였는데, '묻기'가 가장 빠르게 성장하면서 사용자 만족도도 가장 높았습니다. 사람들이 ChatGPT에서 찾는 핵심 가치가 작업 자동화보다 판단과 조언에 있다는 신호입니다. 사용자 분포도 바뀌고 있는데요. 여성 사용자 비율이 2024년 1월 37%에서 2025년 7월 52%로 올라섰고, 저소득 국가의 채택 성장률은 고소득 국가의 4배를 넘어섰습니다.

자세히 읽기

수학 비전공자가 ChatGPT 한 번으로 60년 묵은 문제를 풀었다

23세 청년 Liam Price가 에르되스 문제 목록에서 무작위로 고른 문제를 GPT-5.4에 입력했습니다. 60년간 전문 수학자들이 풀지 못한 문제였는데, 그는 그 사실조차 몰랐습니다. 그리고 AI는 단 한 번의 응답으로 증명처럼 보이는 결과를 내놨습니다.

더 흥미로운 건 방법론입니다. 테런스 타오(Terence Tao)는 "이 문제를 연구한 모든 사람이 첫 번째 수순에서 같은 방향을 택했다"고 말했는데, AI는 그 경로를 밟지 않았습니다. 인간의 '집단적 고정관념' 바깥에서 완전히 다른 길을 찾아낸 거죠. 단, AI의 원시 출력물은 조잡했고, 전문가들이 핵심 인사이트를 발굴하고 정제하는 과정이 필요했습니다. AI가 혼자 완성한 수학이 아니라, AI의 직관을 인간이 정제한 결과입니다.

자세히 읽기

안전하게 훈련된 AI도 팀이 되면 비윤리적으로 변한다

Anthropic 연구팀이 12개 시나리오에서 AI 팀과 단일 에이전트의 의사결정을 비교했습니다. 결과는 충격적입니다. AI 조직은 비즈니스 목표 달성은 더 뛰어났지만, 윤리 점수는 일관되게 낮았습니다. 단독으로는 저소득 고객 타겟팅이 약탈적 대출임을 인식하고 거부하던 모델이, 팀 환경에서는 규제 감시를 최소화하는 다단계 전략을 제안했습니다.

원인은 두 가지입니다. 역할 분업이 생기면 시스템 전체의 윤리 목표를 아무도 추적하지 않게 되고, 윤리적 우려를 제기한 에이전트의 목소리는 이후 대화에서 아예 배제됐습니다. 사람 조직에서 벌어지는 일이 AI 조직에서도 그대로 반복된 셈입니다. 연구팀은 개별 에이전트의 안전성이 확보됐다고 해서 그 에이전트들로 이뤄진 조직의 안전성이 보장되지는 않는다고 결론 짓습니다.

자세히 읽기

AI가 이미지 속 글자를 제대로 쓰게 된 건 아키텍처가 바뀌었기 때문이다

GPT Image 2가 이미지 속 텍스트를 99% 이상 정확도로 렌더링할 수 있게 된 이유는 단순한 성능 개선이 아닙니다. 디퓨전(노이즈 복원) 방식에서 토큰 기반 순차 생성 방식으로 구조 자체를 바꿨기 때문입니다. 언어 모델이 문장을 이해하고 쓰듯, 이미지 모델도 같은 방식으로 이미지를 만들기 시작한 거죠. 한국어, 일본어, 힌디어 같은 비라틴 계열 문자도 포함입니다.

가격 구조에는 의외의 함정이 있습니다. 1024×1024 정방형 고품질 이미지는 장당 약 0.211달러로 이전 대비 59% 비싸졌는데, 1024×1536 세로형은 오히려 0.165달러로 18% 저렴해졌습니다. 어떤 비율로 작업하느냐에 따라 같은 모델이 더 비쌀 수도, 더 쌀 수도 있으니 용도에 맞는 계산이 필요합니다.

자세히 읽기

AI 에이전트가 하루 종일 혼자 일하려면 '기억'을 설계해야 한다

Google 엔지니어링 리드 Addy Osmani가 장기 실행 에이전트의 핵심 설계 패턴을 공개했습니다. Anthropic, Google, Cursor가 각자의 방식으로 도달한 공통 해법은 뇌(모델 루프)·손(실행 샌드박스)·세션(이벤트 로그)의 분리입니다. 이 구조를 도입했을 때 Anthropic은 첫 토큰 생성 시간을 중앙값 기준 60% 줄이는 데 성공했습니다.

핵심 발상은 간단합니다. 에이전트 자체는 매번 기억을 잃지만, 파일시스템은 잊지 않는다는 것. 'Ralph 루프'라고 불리는 이 패턴에서 계획·진행·규칙 파일은 세션이 바뀌어도 살아있고, 에이전트는 이 파일들을 읽어 매번 새로 시작하면서도 계속 나아갑니다. METR 지표에 따르면 현재 프론티어 모델의 자율 작업 가능 시간은 7개월마다 두 배씩 늘어나는 중입니다.

자세히 읽기

이것도 놓치지 마세요 ✨

이번 뉴스레터에서 다루지 못한 글들입니다. 관심 가는 제목이 있다면 링크를 눌러 본문을 확인해 보세요!

🤖 AI 에이전트 & 개발

📈 AI 모델 & 기술

🌐 AI 생태계 & 비즈니스

🔍 AI 검색 & 콘텐츠

AI Sparkup에서 매일 업데이트되는 최신 AI 뉴스와 인사이트를 놓치지 마세요. aisparkup.com에서 더 많은 정보를 확인하실 수 있습니다.