AI 환각, 사라지지 않는 진짜 이유가 밝혀졌다 🧠

PLUS: 소형 모델의 역습, 15억 달러 저작권 대전쟁, 챗봇 광고 시대 개막, 검색의 패러다임 전환

AI Sparkup ⚡
September 12, 2025

"AI 한 번 더 똑똑하게 만들면 환각 문제 해결될 거야"라고 생각했다면 큰 오산입니다. OpenAI 최신 연구가 충격적 진실을 공개했거든요.

환각의 원인은 AI가 바보여서가 아니라 현재 평가 방식이 "찍어서라도 맞혀"라는 신호를 보내기 때문입니다.

이런 가운데 AI 업계에는 또 다른 반전이 일어나고 있어요. 작은 AI 모델들이 거대 모델을 압도하기 시작했거든요. 동시에 업계 전체는 15억 달러짜리 저작권 분쟁으로 완전히 뒤바뀌고 있습니다.

OpenAI가 "AI 환각이 왜 사라지지 않는지" 연구한 결과가 업계를 뒤흔들고 있습니다. 놀랍게도 원인은 AI 능력 부족이 아니었습니다.

핵심 포인트:

시험에만 맞춘 AI의 함정: 현재 AI는 객관식 시험처럼 평가받습니다. 모르는 문제에서 "모르겠습니다"라고 하면 0점, 찍으면 25% 확률로 맞출 수 있죠. 결국 찍는 AI가 정직한 AI보다 높은 점수를 받게 됩니다
환각률 공식 발견: OpenAI는 환각률이 최소 "2 × 분류오류율"이라는 수학적 공식을 증명했습니다. 한 번만 나온 정보들의 비율만큼 환각률이 생길 수밖에 없다는 "싱글톤 정리"도 발표했어요
해결책은 의외로 간단: 평가 방식을 바꾸면 됩니다. 틀린 답에는 더 큰 감점을, "모르겠다"는 답에는 부분 점수를 주는 거죠. 이미 인도 JEE나 미국 SAT에서 쓰던 방식입니다

NVIDIA가 "소형 언어 모델이 에이전트 AI의 미래"라는 파격적 주장을 내놨습니다. 에이전트 AI 시스템의 90% 작업은 소형 모델로도 충분하다는 겁니다.

핵심 포인트:

10~30배 비용 절감: Microsoft Phi-3 2.7B는 30배 큰 모델과 동등한 성능을 보이면서 15배 빠른 속도를 자랑합니다. Salesforce의 xLAM-2-8B는 도구 호출에서 GPT-4를 능가했어요
반복 작업의 전문가: 에이전트는 주로 예측 가능한 작업을 반복합니다. JSON 파싱, 이메일 답장, 함수 생성 같은 일들이죠. 이런 작업엔 거대한 능력이 필요 없습니다
하이브리드 운영이 현실적: MetaGPT는 60%, Open-Operator는 40%의 작업을 SLM으로 대체 가능하다고 분석됐습니다. 복잡한 추론은 LLM에, 단순 반복은 SLM에 맡기는 거죠

Anthropic의 15억 달러 합의와 Warner Bros의 Midjourney 소송이 연달아 터지면서 AI 업계 룰이 완전히 바뀌고 있습니다.

핵심 포인트:

데이터 출처가 생명선: 법원이 Anthropic 사건을 명확히 구분했습니다. 정당하게 구매한 책으로 AI 훈련하는 건 공정 이용, 해적판 사이트에서 훔친 건 완전 저작권 침해라고 판결했어요
Midjourney 완전 타겟: Warner Bros가 Disney/Universal보다 영리하게 공격했습니다. "Batma"처럼 철자 틀려도 배트맨이 나오는 걸 증거로, 고의성을 강조했거든요. 배상금은 작품당 최대 15만 달러까지 가능해요
라이선스 러시 시대: AI 회사들이 급히 정당한 데이터 확보에 나섰습니다. OpenAI는 AP통신과, Anthropic은 깨끗한 데이터셋 구축에 투자하고 있어요. 창작자들도 집단 협상력이 세졌고요

월 20달러 구독 모델의 한계가 드러나면서 AI 챗봇에 광고를 넣는 새로운 수익화 모델이 등장했습니다. Koah가 500만 달러 투자를 받으며 주목받고 있어요.

핵심 포인트:

글로벌 시장의 현실: 미국에선 월 20달러가 적당하지만 라틴 아메리카나 아시아에선 큰 부담입니다. 수백만 사용자를 확보해도 대부분이 유료 전환을 하지 않는 딜레마가 있었어요
자연스러운 광고의 혁신: 사용자가 스타트업 조언을 요청하면 UpWork 광고가 나타나는 식입니다. 클릭률 7.5%로 일반 모바일 광고의 4-5배 성능을 보여줘요
구독 피로도의 해답: Netflix, Spotify도 광고 기반 요금제를 도입하는 시대입니다. 초기 파트너들은 30일 만에 1만 달러 수익을 올렸다고 하니, AI 서비스의 새로운 표준이 될 가능성이 높아요

ChatGPT가 하루 25억 개 질문을 처리하는 지금, 전통적인 구글 SEO로는 한계입니다. AI가 답변을 생성할 때 여러분의 브랜드가 언급되지 않으면 존재조차 모르게 돼요.

인용받는 브랜드가 살아남는다:

새로운 목표 설정: 전통 SEO는 클릭 유도가 목표였지만, LLM SEO는 AI 답변에 인용되는 게 목표입니다. 미국 27%가 이미 AI 도구를 검색 대신 사용하고 있어요
Selection Rate의 편향성: AI 모델은 내부적으로 특정 브랜드에 대한 '관련성 인식'을 갖고 있습니다. 커피 머신 추천에서 네스프레소는 자주 선택되지만, 관련성이 낮다고 판단되는 브랜드는 좋은 콘텐츠가 있어도 선택되지 않아요
FAQ와 대화형 언어가 핵심: AI는 질문-답변 형식을 선호하고, "집에서 장비 없이 할 수 있는 15분 운동이 뭐가 있을까요?" 같은 자연스러운 표현을 더 잘 이해합니다

AI Sparkup에서 매일 업데이트되는 최신 AI 뉴스와 인사이트를 놓치지 마세요. aisparkup.com에서 더 많은 정보를 확인하실 수 있습니다.