토큰 불경제

저자: 리강, 텐센트 연구원

최근 일부 언론에서 마이크로소프트가 내부의 Claude Code 라이선스를 회수했다고 보도했습니다1. Claude Code는 Anthropic이 출시한 AI 프로그래밍 도구로, 마이크로소프트 내부에서 공개된 지 불과 6개월 만에 가장 인기 있는 보조 개발 소프트웨어 중 하나로 자리 잡았습니다. 이에 따라 토큰 소비가 급증하고 비용이 폭등했지만, 산출물의 품질은 기대에 못 미쳤습니다. 여러 가지를 고려한 끝에 마이크로소프트는 브레이크를 밟고 직원들을 자사의 Copilot CLI로 전환하도록 유도했습니다.

토큰 소비와 실제 산출물 간의 불균형 현상은 다른 플랫폼 기업에서도 보편적으로 나타납니다. 우버(Uber)는 불과 4개월 만에 2026년 연간 AI 프로그래밍 도구 예산을 모두 소진했고, 아마존(Amazon)의 일부 직원은 의미 없는 토큰 소비를 했으며, 메타(Meta)는 내부 직원 대상 ‘Tokenmaxxing’ 순위표를 조용히 내리며 산출물 없는 토큰 소비를 더 이상 장려하지 않게 되었습니다2. 모두가 AI를 도입하고 있지만 아직 올바른 사용법을 찾지 못했고, 기업들은 AI 네이티브를 강조하지만 (당분간은) 수익이 아닌 점점 길어지는 청구서만 목격하고 있습니다. 저는 이를 ‘토큰 불경제(token不经济)’라고 부릅니다.

토큰 불경제는 기업 내부 관리 부실, 제한적인 토큰 사용 수익, 에이전트 자체의 아키텍처 설계(예: Skill 반복 호출, 장기 작업의 내부 마찰, 다중 에이전트 협업 비용) 등 여러 요인이 중첩된 결과입니다. 향후 이러한 문제는 내부 통제의 정교화와 기술적 측면에서의 지속적인 소비 최적화를 통해 점차 완화될 수 있습니다. 그러나 토큰 순수익이 플러스로 전환되려면 공급 측면에서 토큰 비용을 최적화하는 것뿐만 아니라, 수요 측면에서 시작하여 토큰 소비가 광범위한 산업 현장에서 실제 가치를 창출하도록 만드는 과제를 해결해야 합니다.

좋은 물건은 싸지 않다

지난 2년간 주류 대형 모델은 빠르게 진화했고, 개발 기업들은 자신의 시장 포지셔닝에 따라 서로 다른 제품 조합 전략을 채택하면서 API 호출 가격(백만 토큰당 USD)도 그에 따라 변동했습니다. 모델 성능은 크게 향상되었지만, 좋은 물건은 싸지 않다고 동일 계층 제품의 호출 가격도 은밀히 인상되어 하위 사용자의 토큰 소비 비용을 끌어올리는 중요한 원인이 되었습니다.

(1) 리더의 계층화 전략

Anthropic은 비공개 소스 모델 업체 중 가장 먼저 프로그래밍이 토큰 수익화의 핵심 현장임을 간파한 기업입니다. 대형 모델의 주요 유료 사용자는 개발자와 기업 기술팀으로, 이들은 가격에 덜 민감하고 모델의 코딩 효율성과 품질을 더 중시합니다. 프로그래밍이라는 상업적 기회를 먼저 장악하면 토큰 프리미엄을 실현할 수 있습니다. 따라서 Anthropic은 연구개발을 프로그래밍에 집중했습니다. 프로그래밍 능력의 우위를 확립한 후, 2024년 초 Claude 3 시리즈 출시를 기점으로 업계 최초로 플래그십-미드레인지-라이트의 3차원 제품 포트폴리오를 도입하여 동세대 모델 계층별 가격 책정을 실현하고 프리미엄 시장과 대중 시장을 동시에 공략했습니다.

Opus 시리즈는 프로그래밍 업계의 벤치마크로 자리매김하며 $15/$75(입력/출력 백만 토큰 가격, 이하 동일)의 가격으로 프리미엄 시장을 겨냥합니다.
Sonnet 시리즈($3/$15)는 일상적인 프로그래밍 및 사무 작업에 높은 가성비를 제공합니다.
Haiku 시리즈($1/$5)는 가볍고 빠른 인터랙션 시나리오를 겨냥하여 합리적인 가격을 제시합니다.

이러한 정교한 계층 구분을 통해 Anthropic은 각 가격대에서 이익 추출을 극대화하는 동시에 시장 점유율을 보호할 수 있습니다. 이러한 가격 전략 덕분에 기술 리더인 Anthropic은 경쟁 수단이 더욱 풍부해지고 운영도 더욱 유연해졌습니다.

예를 들어, 경쟁 제품의 성능 격차가 빠르게 좁혀지고 있음을 감지한 후 Opus 4.5 출시와 함께 대폭 가격 인하를 단행하여 경쟁사의 시장 공간을 압박했습니다.

또 다른 예로, 차세대 모델 Mythos Preview($25/$125)가 출시되면서 Opus 상위에 새로운 초프리미엄 계층을 배치하여 플래그십 제품의 가격대를 끌어올리고, 이전의 지속적인 프리미엄 제품 가격 인하 추세를 반전시켰습니다. 이후 출시된 Fable 5는 동일한 기반 아키텍처를 채택하면서도 안전을 이유로 일부 기능을 제한하고 $10/$50(여전히 Opus 시리즈의 두 배)의 가격으로 더 넓은 시장을 겨냥했습니다.

성능뿐만 아니라 안전 제약의 강도에 따라 가격을 책정하여 능력 계층화, 리스크 계층화, 가격 계층화의 3차원 가격 책정 전략을 형성하고 프리미엄 시장을 되찾았습니다. 이 포지셔닝 전략의 효과는 2025년에서 2026년 사이에 충분히 입증되었습니다. Anthropic의 연간 반복 수익(ARR)은 2024년 말 약 10억 달러에서 2026년 5월 약 450억 달러로 치솟았습니다3.

더욱 중요한 것은, 이 전략이 제품력 리더로서의 시장 프리미엄을 충분히 보호하고, 성능 우위에 기대어 가격 경쟁의 틀에서 벗어나 ‘좋은 물건은 싸지 않다’라는 가치 순환 고리를 완성했다는 점입니다.

(2) 추격자의 가격 줄다리기

이에 비해 OpenAI와 Google은 대형 모델 상용화 초기 단계에서 Anthropic과는 다른 다각화 경로를 선택했습니다.

OpenAI는 2024년에 Sora 등 멀티모달 프로젝트에 대규모 리소스를 투입했습니다.
Google은 Gemini를 중심으로 검색, 클라우드 서비스, Workspace 등 여러 제품 라인을 아우르는 생태계 전략을 구축했습니다.

이러한 투자로 기술 영역은 확장되었지만, 리소스가 분산되면서 사무 및 프로그래밍 시나리오에서의 성과는 상대적으로 두드러지지 않았습니다. 프로그래밍이야말로 모델 능력을 수익화하는 주 전쟁터임을 깨닫고 다시 추격에 나섰을 때는 이미 선점 우위를 잃은 뒤였습니다. OpenAI의 반격은 매우 단호했습니다.

한편으로 코딩 및 에이전트 능력에 다시 집중하고 Sora와 같이 막대한 리소스를 소모하는 프로젝트를 정리했습니다.
다른 한편으로는 Anthropic을 따라 자체적인 계층형 제품 매트릭스를 구축하고, 1대1 밀착 마크를 펼치는 동시에 플래그십 모델과 경량 모델의 가격 차이를 의도적으로 벌렸습니다. 플래그십 모델은 고가로 선두 모델의 간판을 지키고, 경량 모델은 저가로 시장 점유율을 확보하는 전략입니다.

GPT 5.5의 가격($5/$30)을 Opus 4.7/4.8($5/$25)과 비슷하게 맞춰 Claude Opus와 동등한 프리미엄 가격 기준점을 구축했습니다. 하위 모델인 GPT 5.4 mini($0.75/$4.50)와 nano($0.20/$1.25)는 동급 Claude Haiku 4.5($1.00/$5.00)보다 훨씬 낮은 가격으로 시장을 공략했습니다.

Google은 안드로이드 생태계의 핵심으로, 이미 완전한 비즈니스 순환 고리를 보유하고 있어 처리해야 할 관계가 더욱 복잡하고 움직임도 더 신중합니다. Gemini는 Google Cloud의 기업 고객, Workspace의 생산성 사용자, 그리고 검색 제품의 소비자 경험을 동시에 지원해야 합니다. 프로그래밍의 중요성을 인지하고서도 자원을 전적으로 프로그래밍과 사무에만 집중할 수 없고, 멀티모달, 다각화 노선을 계속 걸어야 합니다. Google 역시 Anthropic을 따라잡기 위해 1.5세대 Gemini부터 제품을 플래그십 Pro 시리즈와 경량 Flash 시리즈로 나누었지만, 제품 반복 속도는 상대적으로 느리고 가격 포지셔닝은 더 낮았습니다.

2024년 초 플래그십 모델 Gemini 1.5 Pro는 짧은 프롬프트(<128k) 상황에서 백만 토큰 출력 가격이 불과 5달러로, 동기간 GPT-4o의 3분의 1, Opus 3의 15분의 1 수준이었습니다.
2026년 2월 출시된 Gemini 3.1 Pro의 백만 토큰 출력 가격은 12달러로 인상되었지만, 동기간 GPT 5.4의 15달러와 Opus 4.6/4.7의 25달러에 비해 현저히 낮습니다.

이뿐만 아니라 Google은 경량 제품 라인인 Flash 아래에 초경량 제품 라인 Flash-Lite를 추가하여 호출 가격을 오픈 소스 모델과 동일한 수준까지 낮추는 역발상을 단행했습니다. 이는 전형적인 가격 인하를 통한 물량 확보 전략입니다. 시장이 간절히 기대했던 Gemini 3.5 Pro가 좀처럼 정식 출시되지 못하고 있는 점 역시 Google이 성능, 안전성 및 생태계 적응성을 균형 있게 맞추는 과정에서 내부적인 조정이 필요함을 보여줍니다. 차세대 플래그십 모델 가격 전략 역시 시장의 높은 관심을 받고 있습니다. 그림 1: 플래그십 모델 가격 변동 추이
Claude 시리즈 및 GPT-4o/4.1/5.4의 가격은 공식 가격 페이지에서 가져왔으며, GPT-5.5 시리즈, Gemini 3.5 Flash의 가격은 OpenAI/Google 플랫폼 및 제3자 집계를 바탕으로 합니다. GLM 시리즈 가격은 해외 Z.ai 플랫폼을 기준으로 하며, 구체적인 가격은 환율 변동 및 이중 가격제의 영향을 받습니다. 그래픽: Codebuddy

(3) 서브/경량 및 오픈소스/반오픈소스 모델 시장, 수요 폭발 속 조용한 가격 인상

플래그십 모델은 성능을 겨루고, 서브/경량 모델은 가격을 경쟁하는 것이 시장 경쟁에서 당연히 취해야 할 올바른 자세입니다. 치열한 시장 경쟁 속에서 일반적으로 시장 가격 중심축은 지속적으로 하락할 것이라고 예상됩니다. 하지만 실제 상황은 정반대입니다. 서브/경량-오픈소스/반오픈소스 모델로 구성된 경제형 토큰 시장의 가격 중심축은 지난 2년간 은밀히 상승했으며, 토큰 시장의 가격 하한선이 실질적으로 높아진 것도 바로 이러한 상승 속에서 이루어졌습니다. 표면적으로 보면 이곳은 미친 듯이 경쟁하는 레드오션입니다.

Sonnet, mini, Flash 등 저렴한 요금의 서브/경량 모델은 주류 비공개 소스 모델이 대중 시장을 겨냥한 경제적인 패키지로, 주요 목표는 시장 점유율을 확보하는 것입니다.

이와 동시에 DeepSeek, Qwen, GLM 등 오픈소스 또는 반오픈소스 모델이 빠르게 부상하며, 보편적으로 플래그십 성능을 내세우면서도 서브/경량 모델 수준의 가격을 매기는 전략을 구사하여 서브/경량 비공개 소스 모델 시장에 지속적인 가격 압력을 가하고 있습니다. 2024년 말, DeepSeek V3는 약 $0.27/$1.10의 가격으로 시장에 진입하여 동급 비공개 소스 모델보다 크게 낮은 가격을 제시했습니다. 이후 출시된 R1은 $0.55/$2.19의 가격으로 추론 강화 능력을 제공하며 GPT-4.1 mini 및 Claude Haiku의 가격 책정 공간을 직접적으로 압박했습니다. GLM-4 Plus는 불과 $0.69/$0.35의 가격으로 GPT-4 수준에 근접한 성능을 제공하여 가격에 민감한 개발자 그룹에게 큰 매력을 선사했습니다.

가격 경쟁은 이 계층화된 시장에서 일상처럼 보인다. 하지만 다른 한편으로, 각 세대의 하위/경량 모델과 오픈소스/세미 오픈소스 모델이 출시될 때마다 가격 하한선이 함께 높아진다.

예를 들어 2024년 10월 출시된 Haiku 3.5의 입력/출력 가격은 $0.80/$4.00이었고,
1년 후 Haiku 4.5의 가격은 20% 인상된 $1.00/$5.00으로 책정되었습니다.

거의 비슷한 시기에 GPT mini 시리즈는 가격이 거의 두 배로 올라, 4o mini의 $0.15/$0.60에서 4.1 mini의 $0.40/$1.60으로 상승했습니다. Gemini Flash 시리즈도 마찬가지로, 2.0 Flash의 초저가 $0.10/$0.40에서 2.5 Flash의 $0.30/$2.50으로 뛰면서, 백만 토큰 출력 가격이 6배 이상 폭등했습니다. GLM 시리즈와 같은 오픈소스/반오픈소스 모델도 GLM-5의 해외 시장 가격이 GLM-4.7 대비 약 67%~100% 인상되었습니다. 즈푸(Zhipu) 스스로의 표현을 빌리자면, 이번 대폭 인상은 중국산 모델의 기술력과 시장 경쟁력이 빠르게 향상되고 있음을 보여줍니다.

이 같은 현상의 근본 원인은 이코노미형 토큰 소비량의 폭발적 증가입니다. 대부분의 일상적인 코딩 작업, 문서 처리, 자동화 워크플로우에는 Opus나 GPT-5.5 수준의 능력이 필요하지 않으며, Sonnet, mini, Flash 같은 모델이 담당하거나 오픈소스/반오픈소스 모델이 처리합니다. AI 코딩 어시스턴트, Agent 워크플로우, 엔터프라이즈 AI 애플리케이션이 확산됨에 따라 이러한 경량/오픈소스·반오픈소스 모델의 호출량이 급증하여 플래그십 모델을 훨씬 뛰어넘었습니다.

한편으로, 이는 이코노미 모델의 소모를 빠르게 증가시켜 현금을 태워가며 낮은 가격을 유지하는 게임이 지속 불가능하게 만들었습니다.
다른 한편으로, 이는 업체들에게 가격 인상 여력을 열어주어 가격이 오르는 와중에도 수요가 빠르게 늘어나고 있습니다.

따라서 이코노미형 토큰 시장에서조차 경쟁의 논리가 ‘어느 토큰이 더 싼가’에서 ‘어느 토큰이 더 높은 가성비를 갖는가’로 전환되고 있습니다. Claude Sonnet/Haiku, GPT mini/nano, Gemini Flash는 물론 DeepSeek, Qwen, GLM 시리즈에 이르기까지 가격 중심축이 상승하는 추세가 나타나고 있습니다. 위 분석을 통해 보면, 토큰 시장은 고급형 가격 구조 고착화, 중급형 물량·가격 동반 상승, 이코노미형의 따라잡기 인상이라는 전반적인 상승 과정을 겪고 있습니다.

Anthropic은 코딩 역량 우위를 바탕으로 업계 최강의 가격 결정력을 구축했고, OpenAI와 Google은 빠르게 추격 중이지만 당분간은 낮은 가격으로 물량을 확보해야 하며, 오픈소스/반오픈소스 모델은 지속적으로 가격 하한을 끌어올리는 동시에 시장 성장의 과실을 나누기 시작했습니다.

이러한 구도 변화는 AI 산업 전체의 이익 분배와 경쟁 양상에 깊은 영향을 미칠 것입니다. 소비가 급증하고 단가가 상승하는 토큰 시장에서 모델 업체들의 수입 폭증에 상응하는 것은, 필연적으로 다운스트림 토큰 사용자의 비용 상승이며, 이것이 최종 소비 단계에서 토큰이 비효율적인 근본 원인입니다.그림 2: 경량·오픈소스/반오픈소스 모델 가격 추세 Claude 시리즈 및 GPT-4o/4.1/5.4의 가격은 공식 가격 페이지에서 가져옴; GPT-5.5 시리즈, Gemini 3.5 Flash 가격은 OpenAI/Google 플랫폼 및 제3자 집계; GLM 시리즈 가격은 해외 Z.ai 플랫폼 기준, 구체적 가격은 환율 변동 및 이중 가격제에 영향 받음. 그래픽: Codebuddy

에이전트의 숨은 소모

토큰이 점점 비싸지는 것도 지갑을 아프게 하지만, 더 안타까운 것은 상당수의 토큰이 에이전트(Agent)를 호출해 작업할 때 시스템적으로 낭비된다는 점입니다. 컨텍스트 트랩(Context Trap), 토크나이저 블랙박스(Tokenizer Black Box), 스킬 중복(Skill Redundancy), 그리고 멀티 에이전트 협업에서의 커뮤니케이션 세금과 장기 엔트로피 증가(Communication Tax and Entropy Drift) 등 이러한 구조적인 누수가 겹쳐져 토큰 비효율의 내부 기술적 원인을 구성합니다.

(1) 컨텍스트 트랩

모델 추론은 각 토큰과 다른 토큰 간의 관계를 계산해야 하므로 컨텍스트가 길수록 계산 부담이 커지고 토큰 소모도 늘어납니다. 같은 문제라도 맥락 없이 에이전트에게 던지면 소모되는 토큰이 적지만, 이전 대화 기록, 도구 로그, 코드 파일, 오류 메시지, 여러 차례의 논의가 함께 전달되면 입력 토큰 소모량이 몇 배나 차원이 달라질 수 있습니다.

그런데 에이전트 아키텍처는 장문 함정을 자연스럽게 증폭시킵니다. 에이전트는 문제를 분해하고, 도구 호출을 계획하며, 파일을 읽고, 피드백을 확인하고, 방안을 수정한 뒤 다시 도구를 호출하는 과정을 반복하는데, 매 단계마다 이전 기록이 다시 컨텍스트에 포함될 수 있습니다. 동일한 정보가 반복적으로 읽히고, 동일한 작업에 거듭 과금됩니다. Salim et al., (2026)이 ChatDev 프레임워크를 분석한 결과, 코드 리뷰(Code Review) 단계에서 소모되는 토큰이 평균 전체 소모량의 39.5%로 모든 개발 단계 중 가장 높았으며4, 이는 거의 40%에 달하는 토큰이 실제로 새로운 콘텐츠를 생성하는 대신 에이전트 간에 기존 정보를 반복 전달하는 데 사용되었음을 의미합니다.그림 3: ChatDev 프레임워크 30개 태스크의 단계별 토큰 소모 비중 분석 Salim, et al., (2026). Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering. Proceedings of the Mining Software Repositories Conference (MSR).

(2) 토크나이저 블랙박스

토크나이저(Tokenizer)는 대규모 모델 훈련의 기초로서, 동일한 파라미터 수에서 모델의 정보 밀도 상한선, 유효 컨텍스트 길이 하한선, 그리고 엣지 케이스(숫자·코드·다국어)의 신뢰성을 결정합니다. 토크나이저가 합리적일수록 모델 훈련과 추론이 더 효율적이고 안정적입니다. 오픈소스·반오픈소스 모델의 토크나이저와 가중치는 일반적으로 공개되지만, 클로즈드소스 모델의 토크나이저는 '블랙박스'이며, 토크나이저 교체는 대개 토큰 밀도의 변화를 동반합니다.

2026년 4월 Anthropic은 Opus 4.7을 출시하면서 기본 토크나이저를 교체했습니다. Anthropic 공식 문서에 따르면, 토크나이저 조정은 주로 모델 훈련의 실제 요구를 고려했으며, 성능 향상을 위해 더 세분화된 서브워드 분할 방식을 채택했고, 그 부작용으로 동일한 길이의 텍스트에서 토큰 수가 1.0배에서 1.35배로 증가했습니다13. 여러 독립 테스트 기관의 결과에 따르면 실제 팽창 배율은 더 높습니다. 기업 AI 비용 관리 플랫폼 Finout이 실제 기업 프롬프트를 가중 평균한 측정 결과, 기술 문서와 영어 집약적 코드 파일의 평균 팽창률은 1.47배(+47%)에 달했고14; ClaudeCodeCamp가 7종의 실제 파일 유형에 대해 종합 테스트한 결과 평균 1.325배(+32.5%)15; 개발자 Simon Willison이 API를 직접 비교한 결과, 동일한 시스템 프롬프트가 새 토크나이저에서 5,039토큰에서 7,335토큰으로 증가(+46%)했고, 고해상도 이미지의 토큰 팽창은 무려 3.01배(+201%)에 달했습니다16.

더 앞서, OpenAI는 GPT-4o를 출시하면서 토크나이저를 cl100k_base에서 o200k_base로 업그레이드했고, 어휘 규모를 거의 두 배로 늘렸으며, 압축률을 높이고 다국어 처리 능력을 강화하기 위한 것이라고 밝혔습니다17. 하지만 어휘 확장 자체가 동일 텍스트의 토큰 수 감소를 의미하는 것은 아니며, 실제로 비영어 콘텐츠(특히 중국어, 일본어 등 CJK 문자)에서는 새 토크나이저의 분할 단위 변화로 인해 토큰 수가 줄어들기는커녕 오히려 늘어날 수 있습니다. 더 세분화된 토크나이저가 모델 성능을 실제로 향상시키는지에 대해서는 아직 모델 개발사로부터 체계적인 공개 논증이 부족한 상황입니다.

Anthropic은 Opus 4.7의 변경 문서에서 새 토크나이저를 Breaking Changes 항목에 포함시키고, 사실적 변화(더 세분화된 서브워드 분할)만 기술했을 뿐 기술적 동기나 성능 이점을 상세히 설명하지 않았습니다. 커뮤니티 연구자들은 이론적으로 더 세분화된 토크나이저가 모델의 어휘 표현 능력을 풍부하게 할 수 있고, 특히 코드 이해 및 구조화된 데이터 처리(JSON, XML 등의 포맷이 Opus 4.7에서 최고 1.35배 팽창 상한에 도달)에 유리할 수 있지만, 이러한 잠재적 성능 이득이 거의 50%에 달하는 비용 증가를 정당화할 수 있을지는 미해결된 문제라고 지적합니다13. 토크나이저 교체 주기는 모델 업데이트보다 확연히 느리지만, 토큰의 가장 기본적인 과금 기준과 직결되며, 변화는 기술적 세부 사항 속에 숨어 있어 일반 사용자가 알아차리기는 거의 불가능합니다. 클로즈드소스 모델은 토크나이저에 대해 더욱 비밀스럽게 다루며, 이것이 토큰 비효율을 심화시키는 원인 중 하나가 될 수 있습니다.(

3) 불필요한 스킬 호출

스킬(Skill)은 에이전트(Agent) 아키텍처를 더욱 전문적으로 만들어주는 핵심 도구 중 하나다. 누군가는 스킬을 좀 더 긴 마크다운 정도로 보기도 하고, 누군가는 각종 참고문헌과 작업 설명이 담긴 폴더로 여기며, 또 다른 누군가는 스킬을 아주 긴 구조화된 프롬프트로 이해하기도 한다. 실제 추론 및 에이전트 작업에서는 많은 스킬이 지나치게 길고 복잡해 토큰 소모를 가중시킨다. Gao et al., (2026)이 55,315개의 공개 스킬을 대상으로 실시한 대규모 실증 연구는 스킬의 비효율적 로딩이 어떻게 토큰을 낭비하는지 밝혀냈다5. 라우팅 단계(즉, 에이전트가 특정 스킬을 호출할지 결정하는 국면)에서 무려 26.4%의 스킬은 라우팅 설명이 전혀 없어, 마치 목차 없는 도구 설명서와 같아서 에이전트가 비효율적으로 로딩할 확률을 크게 높인다. 본문 단계에서는 60% 이상의 스킬 콘텐츠가 곧바로 실행 가능한 작업 규칙이 아닌 배경 설명이나 예시 텍스트여서, 스킬 사용 시 대부분의 토큰이 작업 수행이 아닌 설명서를 읽는 데 소비된다. 더 심각한 것은 일부 스킬이 파일을 밀집하여 참조하기 때문에, 단 한 번 호출로 수만 내지 십여만 토큰이 주입되며, 이 중 현재 작업과 관련된 비율은 극히 작을 수 있다는 점이다. Han et al., (2026)의 SWE-Skills-Bench 벤치마크 테스트는 스킬 효용의 제한성을 더욱 확증해 주었다6. 해당 연구는 실제 GitHub 프로젝트에서 49개의 공개 소프트웨어 엔지니어링 스킬을 테스트했으며, 그 결과 39개 스킬(79.6%)은 통과율에 아무런 향상을 가져오지 못했고(스킬 유무와 관계없이 동일한 Pass율 기록), 전체 49개 스킬의 평균 효용 증가폭은 고작 1.2퍼센트 포인트에 불과했으나, 토큰 오버헤드는 최대 451%까지 증가했다. 오직 특정 도메인 전문 지식을 인코딩한 7개 스킬(예: 금융 리스크 관리 공식, 클라우드 네이티브 트래픽 관리, GitLab CI 패턴)만이 유의미한 성능 향상을 가져왔으며(최대 30퍼센트 포인트 향상), 3개 스킬은 버전 충돌로 인해 오히려 성능이 저하되었다(최대 10퍼센트 포인트 하락). 이는 스킬의 효용이 시나리오 적합도에 크게 의존하며, 맹목적인 호출은 비용만 증가시킬 뿐임을 보여준다. (

四）멀티 에이전트의 잡담과 장기 과업의 목표 이탈

멀티 에이전트는 현재 선호되는 작업 방식으로, 사용자가 AI로 구성된 팀을 이끌며 코딩, 검토, 테스트, 수정 등 각 에이전트가 역할을 분담하고 서로 감독하며 여러 경우 출력 품질을 실제로 높여준다. 그러나 기계들 간에도 무의미한 회의가 열리며, 대화 중에 이미 논의된 작업 배경, 기존 결론, 형식화된 상투어를 반복하고, 반복할 때마다 토큰을 다시 소비하는데, Salim et al.,(2026)은 이를 멀티 에이전트 시스템의 커뮤니케이션 세금(communication tax)이라고 명명했다4. 또한 복잡한 장기 과업(long task)을 멀티 에이전트 시스템에 맡기는 방식은 프로그래밍과 사무의 주류 방식이 되고 있으며, 점차 외식·이동 등 일상생활 영역으로 확장되고 있다. 장기 과업은 본래 목표를 벗어나기 쉬운 문제가 있다. 이러한 과업의 컨텍스트는 도구 출력, 오류, 초안, 로그로 가득 차 모델의 추론이 점차 목표에서 벗어나기 쉽다. 이를 바로잡기 위해 개발자는 대개 요약, 기억, 점검, 롤백 등의 메커니즘을 추가하게 되고, 이는 더 많은 토큰 소비를 불러온다. Luo et al.,(2026)은 TabTracer 연구에서 전통적인 체인 추론이 경로가 너무 길어질 때 순환 상태에 빠지기 쉬우며, 적대적 주입이 이러한 순환을 의도적으로 촉발하여 에이전트가 잘못된 경로에서 토큰을 반복 소비하게 만든다는 점을 관찰했다7. 이러한 안정성 유지에 드는 추가 소비를 일반적으로 엔트로피 세금(entropy tax)이라 부르며, 시스템이 복잡할수록, 에이전트가 자유로울수록, 감독이 더 필요하고, 과업이 길수록, 컨텍스트가 커질수록 엔트로피 세금은 더 빠르게 증가한다. 겉보기에 효율적인 에이전트 팀일지라도 토큰 청구서 중 절반 이상이 내부 조정과 자체 수정에 쓰일 수 있다. 컨텍스트 함정, 토크나이저 블랙박스, 스킬의 무의미한 호출, 잡담 문학과 장기 과업의 목표 이탈, 이 요인들이 겹쳐지면 토큰 소비 효과는 단순한 합산이 아니라 곱셈 형태의 기하급수적 성장이다.

더 주목할 것은 이러한 기술적 손실이 사용자에 따라 비대칭적으로 작용한다는 점이다. 기술적 배경을 갖춘 개발자는 시스템 프롬프트(System Prompt) 조정, 스킬 콘텐츠 축소, 컨텍스트 윈도우 관리 전략 설정 등을 통해 어느 정도 문제를 완화할 수 있지만, 기술적 배경이 부족한 일반 기업 사용자는 에이전트 내부의 토큰 흐름 메커니즘을 이해하지도, 그 행동 패턴에 효과적으로 개입하지도 못한 채 청구서 숫자가 계속 늘어나는 것을 보며 돈이 정확히 어디에, 왜 그렇게 많이 소비되었는지 알지 못한다.

이런 의미에서 토큰 비경제는 단지 기술 효율의 문제가 아니라 기술 평등의 문제이기도 하다. AI 도구 사용의 진입 장벽이 코드를 쓸 수 있느냐에서 에이전트 아키텍처의 비용 역학을 이해할 수 있느냐로 바뀌었다. 현실에서 대부분의 에이전트 사용자는 관련 기술 배경을 갖추지 못하고 구조적 불리함에 놓여 있다.

실제 수요 찾기

가격 책정, 비효율적 소비 등 여러 공급 측 문제에 비해, 응용 측의 한계가 토큰 비경제를 초래하는 더 중요한 원인이다. 모델 성능이 지난 2년간 괄목할 만한 진전을 이루었지만, 토큰의 범용성은 여전히 상당히 제한적이다. 현재 토큰의 사용은 대부분 프로그래밍 보조, 문서 처리, 데이터 분석 등 디지털화 수준이 높은 시나리오에 머물러 있다.

이러한 강점 영역을 벗어나면, 대형 모델의 성능은 응용 시나리오의 디지털화 수준이 낮아짐에 따라 급격히 저하된다. 디지털화 정도가 극히 낮은 오프라인 서비스 업종, 예컨대 외식, 가사, 소매 단말기, 현장 수리 등에서 토큰이 독립적으로 수행할 수 있는 작업은 이미 고도로 디지털화된 프로세스 관리 부분에 한정되며, 실제 현장 작업에는 참여하기 어렵다. 이는 AI가 영원히 이 분야에 진입하지 못한다는 뜻이 아니라, 현재의 순수 언어 모델 패러다임(token-in, token-out)과 현실 세계 사이에 구조적 격차가 존재한다는 뜻이다.

이 문제는 모바일 인터넷 시대부터 존재해 왔으며, 디지털 기술이 1차 및 2차 산업을 근본적으로 바꾸지 못한 근본 원인이다. 인공지능의 발전은 이 격차를 넘어설 새로운 가능성을 제공하며, AI for Science(과학을 위한 AI), 월드 모델(World Model), 로봇 시스템 등 기초 연구가 진전을 거두고 있다.

지난 2년간 노벨 물리학상과 화학상이 인공지능 과학자에게 수여되었고, Figure, Tesla Optimus, 유니트리(宇树) 등 휴머노이드 로봇이 현저한 진전을 이뤘다. 그러나 이러한 첨단 분야는 현재 여전히 실험실 단계에 머물러 있으며, 획기적인 응용 계층의 돌파구가 마련되기 전까지 토큰은 고도로 디지털화된 시나리오에 계속 갇혀 있을 가능성이 크다.

（一）프로그래밍은 보편적인 특례

프로그래밍은 현재 대규모 언어 모델이 가장 뛰어난 성과를 내는 응용 시나리오지만, 이 시나리오는 보편적인 대표성을 갖는다고 보기는 어렵고, 더 정확히는 보편성을 띤 특례라고 할 수 있다. 보편성이란, 프로그래밍이 출력하는 것은 에이전트의 보편 언어로서 디지털화 기반이 양호한(프로세스와 파일이 이미 디지털화되어 알고리즘에 의해 구동되는) 시나리오에서 여러 유형의 에이전트를 직접 구동하여 다양한 작업을 지원할 수 있다는 점이다.

이런 관점에서 Anthropic이 프로그래밍에 특화한 Claude Code와 OpenAI의 GPT Codex가 현재 시장에서 가장 인기 있는 에이전트 제품이 된 것은 우연이 아니다. 특례란 프로그래밍 시나리오가 모델의 후학습(post-training) 단계에서 큰 이점을 갖는다는 점으로, 첫째는 결정적 신호 피드백이다. 모델이 생성한 코드를 한 번 실행하면 컴파일러, 인터프리터, 유닛 테스트가 곧바로 정확하고 구조화되며 모호함 없는 정오 판단을 내린다. 둘째는 이러한 자동 신호 피드백을 기반으로 자동화된 후학습 폐루프를 효율적으로 형성하여, 피드백을 막힘없이 강화 학습 루프로 연결할 수 있다는 점이다. 에이전트는 디지털 샌드박스 안에서 빠르게 생성, 오류 수정, 자기 교정을 수행한다. 이 같은 자율 학습 환경은 다른 시나리오에서는 매우 드물거나 사실상 형성되기 어렵다.

프로그래밍을 벗어나면 모델 훈련 효율은 크게 떨어진다. 디지털화 수준이 상대적으로 낮아 자동화된 후학습 폐루프를 형성할 수 없는 전통적인 비즈니스 세계, 예를 들어 경영 결정, 법률 협상, 임상 의료, 공급망 물류 등에서는 데이터 수집과 결과 검증 비용이 어떤 토큰 경제든지 잠식해 버린다. 저비용의 피드백 신호를 확보하지 못한 에이전트는 기하급수적인 자기 진화를 이룰 수 없으며, 프로그래밍에서의 엄청난 성공을 반복하기 어렵다. 2023년 2월, A&O Shearman(구 Allen & Overy)은 법률 분야에 특화된 대규모 모델 기업 Harvey AI와 처음으로 독점 전략적 제휴를 맺고, Harvey AI가 개발한 AI 법률 어시스턴트를 전 세계 43개 사무소에 배치했다18.

수개월에 걸친 시범 사용 기간 동안 A&O Shearman의 전 세계 3,500여 변호사가 계약서 초안 작성, 법령 검색, 실사 등 여러 법률 업무 절차를 아우르는 약 40,000건의 질의를 Harvey에 제출했고, 실제 업무 효율을 높였다19. 동전의 이면으로, A&O Shearman은 공식 보도자료에서 Harvey AI가 생성한 모든 출력은 반드시 현직 변호사의 면밀한 검토를 거쳐야만 사용할 수 있다고 명시했다18. AI는 변호사의 전문적 판단을 진정으로 대체하지 않았고, 기존 업무 흐름 위에 AI 1차 검토 단계가 추가된 것에 그쳤다.

시니어 파트너가 AI 주석 처리를 거친 계약 초안을 검토할 때 들이는 시간은 원본 계약을 처음부터 다시 검토하는 시간과 거의 같았다. 물론 사람이 검토한 결과 피드백은 후속 모델 훈련의 고가치 데이터가 되지만, 이러한 피드백 비용은 프로그래밍과 같은 자동 폐루프보다 훨씬 높다. 향후 피드백 데이터가 특정 임계점에 쌓이면 에이전트의 현실 시나리오 성능이 크게 향상되어 전문가 수준에 근접하거나 능가할 가능성을 배제할 수 없다. 그러나 프로그래밍과 비교하면 이 임계점까지는 아직 상당히 먼 길이 남아 있다.

（二）물리 세계로의 힘겨운 도약

법률 업무의 주된 내용은 여전히 방대한 텍스트 처리이며, 이는 디지털화 수준이 높고 앞으로도 고도로 디지털화될 것이 확실한 시나리오다. 업무에서 디지털화 가능한 요소, 디지털 세계에서 직접 통제하고 조작할 수 있는 요소가 줄어들수록 에이전트가 수행할 수 있는 업무의 비율도 함께 떨어진다. 현실 세계의 설비 대부분이 소프트웨어로 구동되기는 하지만, 단순히 에이전트가 코드를 짜는 것만으로 물리 세계를 통제하려는 시도는 여전히 커다란 장벽에 부딪힌다.

휴머노이드 로봇(humanoid robot)의 발전을 예로 들면, 이미 마라톤에서 인간 최고 기록을 넘어섰지만, 대부분의 현실 세계 작업에서 휴머노이드 로봇은 여전히 어렵게 분투하고 있다. 청소, 운반, 문 열기, 어수선한 환경 통과 같은 동작은 인간에게 쉬운 일이지만 로봇에게는 엄청난 도전 과제다.

그래서 Moravec(1988)은 "컴퓨터가 지능 검사나 체커 게임에서 성인 수준의 성과를 보이게 하는 것은 비교적 쉬운 반면, 인지와 이동성에 있어서 한 살배기 아기의 능력을 부여하는 것은 극히 어렵거나 아예 불가능하다"고 말했다.

(It is comparatively easy to make computers exhibit adult-level performance on intelligence tests or playing checkers, and difficult or impossible to give them the skills of a one-year-old when it comes to perception and mobility), 40년 가까이 지난 오늘날, 이 말의 가치는 여전히 오르고 있다23.

리페이페이는 장문의 글 《From Words to Worlds》에서 공간 지능과 체화 지능을 더 오랜 시간이 필요한 중기 목표8로 분류한다. 그 이유는 현실 세계에는 컴파일러가 없고, 물리 세계는 반복을 허용하지 않고 검증만을 받아들이며, 검증의 비용이 항상 생성 비용보다 높기 때문이다. 한때 큰 기대를 모았던 시뮬레이션 기술이 어느 정도 효과를 보였지만 프로그래밍 환경에서의 에이전트 적응성 같은 효율을 구현하기까지는 갈 길이 멀다. 시뮬레이션 기술은 물리 세계에 컴파일러가 없는 난제를 우회하기 위해 디지털 트윈과 물리 엔진으로 가상 검증 공간을 구축한다. 하지만 체화 지능의 발전은 결국 가상-현실 격차(Sim-to-Real Gap)에 부딪혔고, 단순화된 샌드박스 안에서 방대한 토큰으로 학습된 최적 제어 궤적은 실제 세계의 마찰, 재료 피로, 환경 소음에 직면하면 극도로 취약해진다. Aljalbout et al.,（2025）는 시뮬레이션과 현실의 격차가 단일한 문제가 아니라 동역학적 차이, 인지 왜곡, 액추에이터 비선형성, 시스템 설계 결함 등 여러 하위 격차가 중첩된 결과이며, 완벽한 시뮬레이터는 계산적으로 실현 불가능하다고 지적한다20.

또한 시뮬레이션 훈련 전략은 모델링 과정에서 부정확하지만 확정적인 경계 조건을 이용해 과도하게 높은 성능 지표를 얻는 경우가 많습니다. 그러나 이러한 전략을 실제 환경에 배포하면 대체로 신뢰성이 떨어지고 위험을 초래하기도 합니다. 예를 들어 OpenAI의 Dactyl 로봇 손 프로젝트는 64대의 NVIDIA V100 GPU와 920대의 32코어 CPU 서버를 이용해 시뮬레이션 속에서 총 1만 3천 년의 작업량에 해당하는 훈련 경험을 축적하여 로봇 손으로 블록을 조작하는 데 매우 높은 성공률을 기록했습니다. 하지만 실제 환경에서 사전 설정되지 않은 재질, 온도, 마모 변화에 직면하자 로봇 손의 강건성(Robustness)은 급격히 저하되었습니다.

2021년 OpenAI는 로봇팀 전체를 해체했습니다. 공동 창업자 보이치에흐 자렘바(Wojciech Zaremba)는 이 결정을 설명하며 “성과를 내기 더 쉬운 분야로 자원을 재배치해야 한다”고 밝혔습니다. OpenAI 측은 공식적으로 Sim-to-Real Gap을 주된 원인으로 지목하지 않았지만, 업계에서는 시뮬레이션 훈련의 막대한 컴퓨팅 비용과 실제 배포 환경의 불확실성 사이의 모순이 OpenAI로 하여금 로봇 분야를 포기하게 만든 주요 요인 중 하나라고 보는 시각이 지배적입니다.

실제 물리적 세계에서 모델 성능을 검증하는 데 드는 시간과 자본 비용은 가상 세계보다 몇 자릿수나 높으며, 이러한 실제 테스트는 대체할 수 없습니다. 이 같은 비대칭적 검증 비용은 프로그래밍 장면이 지닌 특수성을 한 측면에서 보여줍니다. 알고리즘도 만능이 아니며 토큰 역시 만능이 아닙니다. 토큰의 유효 적용 범위가 장기간 프로그래밍 및 소수의 디지털 장면에만 국한되고, 디지털 세계에서 물리적 세계로의 거대한 간극을 끝내 건너뛰지 못한다면, AI 산업화와 산업의 AI화라는 지속 가능성에 커다란 물음표가 찍힐 것입니다.

토큰 이코노미의 미래는 우리가 토큰의 유효 사거리를 디지털 고립 지대에서 더 넓은 실제 세계로 확장할 수 있느냐에 달려 있습니다. 물리적 세계에서 실질적인 수요가 폭발하기 전까지 ‘토큰 비경제성’은 상당 기간 지속될 수 있습니다.

토큰 비경제성의 전이 위험

토큰 비경제성은 AI 산업 가치사슬 전반에 걸쳐 불균등하게 분포되어 있습니다. 상류의 인프라 및 하드웨어 기업들은 현재의 고정 자산 투자 붐 속에서 막대한 이익을 거두고 있습니다. 중류의 모델 기업들은 여전히 제품 성능 경쟁에 몰두하고 있으며, 높은 자본 지출이 현금 흐름을 압박하고 있습니다. 하류의 응용 효과는 사람에 따라, 응용 장면에 따라 천차만별이며 대다수 기업은 여전히 관망세를 유지하고 있습니다. 산업사슬의 위험이 중류로 집중되는 가운데, 중류 모델 기업들은 자본시장에서 하나의 순환 투자형 소규모 커뮤니티를 구축해가고 있습니다. 지속적으로 누적된 토큰 비경제성 위험은 일단 폭발하면 필연적으로 금융시장을 뒤흔들고 심지어 민생 안정에도 영향을 미칠 수 있습니다.

(1) 산업사슬 위험의 불균형적 분포

토큰-에이전트 열풍은 막대한 자금을 상류의 데이터센터, 네트워크 및 칩 제조, 그리고 전력 및 에너지 인프라로 유입시키고 있습니다. TSMC의 2026년 자본 지출은 520억~~560억 달러에 달할 것으로 예상되며, 마이크로소프트, 알파벳(Alphabet), 아마존, 메타의 2025~~2026년 AI 인프라 투자 합계는 3,000억 달러를 크게 웃돌며 7,000억 달러에 육박하는 수준으로 치솟고 있습니다. 중류의 대형 모델 기업들은 이번 AI 투자 물결의 발동기이자 모든 AI 낙관적 기대의 기준점이며 “마을 전체의 희망”입니다. 그러나 주요 기업들은 매출이 폭발적으로 증가함에도 불구하고 여전히 심각한 적자에 허덕이고 있으며, 컴퓨팅 자원 구매 비용이 좀처럼 내려가지 않고 있습니다. OpenAI는 2030년에 이르러서야 비로소 흑자 전환이 가능할 것으로 전망하고 있습니다. 반면, 하류에서 실제로 에이전트(Agent)를 활용해 업무를 처리하고 토큰을 소모하는 기업 사용자들은 이미 비용 통제에 나서기 시작했습니다. 아직 합리적인 수익을 보지 못한 상황에서 토큰에 예산 상한을 설정하고 비용 귀속을 실시하며 사용 라이선스를 축소하는 것은 지극히 당연한 관리 행보입니다. 우리는 AI 산업사슬의 상하류를 대표하는 상장사들의 최근 2년간 잉여현금흐름(FCF=영업활동 현금흐름 - 자본 지출) 변화와 최근 1년간 순이익률을 비교했습니다(그림 4).

2025년, 산업사슬 상류에 위치한 TSMC(44.5%)와 엔비디아(55.6%)는 순이익률이 더 높을 뿐만 아니라 잉여현금흐름에서도 각각 14.5%, 58.8%의 높은 성장을 기록했습니다. 반면, 산업사슬 하류에 위치한 아마존, 마이크로소프트, 메타는 순이익률이 예년 수준과 비슷하거나 개선되었음에도 불구하고, 잉여현금흐름이 자본 지출의 급격한 증가 영향으로 각각 76.6%, 14.8%, 3.4% 감소했습니다.

토큰 금광이 아직 확인되지 않은 상황에서 금을 캐는 자들은 계속 돈을 투자하는 반면, 곡괭이를 파는 자들은 이미 막대한 부를 챙겼습니다. 이와 같은 상황은 역사적으로 여러 차례 반복되어 왔습니다. 산업 혁명 초기에는 신기술의 부상에 힘입어 수요가 먼저 투자 부문과 산업 상류에서 폭발합니다. 중류의 막대한 자본 지출은 상류의 거대한 이익으로 전환되지만, 하류의 최종 소비는 이제 막 태동하는 단계여서 중류 기업들의 생산 능력 확장을 뒷받침하기에는 역부족입니다. 위험은 산업 중류로 집중되며, 자본과 생산 능력은 실제 유료 수요보다 앞서 나갑니다.

단기적으로는 밸류에이션 조정, 생산 능력 유휴화, 일부 참여자의 퇴출은 거의 피할 수 없습니다.
장기적으로는, 기저 수요가 결국 형성되기만 한다면 초과 건설된 데이터센터, 칩, 네트워크는 여전히 유용하게 쓰일 것이며 경제 성장을 뒷받침하는 생산성 기반이 될 것입니다.

사회 대중과 규제 당국 입장에서는 산업사슬의 위험이 금융시장을 통해 외부로 전이되어 위험 파급으로 인한 경제의 큰 변동성을 초래하지 않도록 경계해야 합니다. 그림 4: AI 산업사슬 상하류 잉여현금흐름 증가율 및 순이익률 비교 (FY2025—2026) 데이터 출처, 각 기업 연간 보고서, 10-k SEC 공시. 차트 제작: Codebuddy

(2) 순환 투자와 그림자 신용

산업사슬의 위험은 중류 모델 기업으로 집중되는 반면, 일부 중류 모델 기업들은 상류 하드웨어 기업들과 순환 투자(circular financing)를 전개하여 이것이 기술이 주도하는 진정한 성장인지, 아니면 자본의 자체 순환이 뒷받침하는 밸류에이션 게임에 불과한지 분간하기 어렵게 만들고 있습니다. 예를 들어 OpenAI, 엔비디아, 오라클이 결성한 ‘AI 영구 기관’을 보면, 먼저 OpenAI가 엔비디아의 전략적 투자를 받고(원래 1000억 달러 투자를 약속했으나 이후 OpenAI의 신규 투자 라운드 참여자로 전환, 투자액도 대폭 축소), 그다음 OpenAI가 조달된 자금으로 오라클에 클라우드 서비스를 구매합니다(양사는 5년간 총 약 3000억 달러 규모의 컴퓨팅 파워 구매 계약 체결). 마지막으로 오라클이 OpenAI의 지급 약정을 신용 보강 용도로 활용해 채권을 발행, 자금을 조달하고 엔비디아로부터 GPU를 구매해 컴퓨팅 센터를 건설하는 방식으로 자금이 순환하는 고리를 완성했습니다.

각 단계마다 합리적인 비즈니스 논리가 있는 것처럼 보이지만, 모든 단계가 지나치게 ‘시대를 앞서간다’는 느낌을 지우기 어렵습니다.

OpenAI의 컴퓨팅 파워 구매 프레임워크 총액은 1조 달러를 돌파했는데, 이는 현재 연환산 매출(ARR)인 330억 달러(2026년 5월 기준)와 현저히 맞지 않으며, 전적으로 미래의 초고속 성장 기대에 근거하고 있습니다.

만약 하류의 토큰 최종 소비가 모델 기업 수익의 기하급수적 성장으로 이어지지 못한다면, ‘약속(Commitment)’은 결국 ‘거품’으로 바뀔 것입니다. 토큰 최종 소비에 대한 전망 역시 낙관적이지 않은데, Bain & Company의 추산에 따르면 2030년까지 새로 추가되는 200GW의 컴퓨팅 파워를 소화하려면 최종 소비가 매년 약 2조 달러의 신규 매출을 창출해야 합니다. 하지만 AI를 통한 비용 절감 효과를 감안하더라도 여전히 약 8000억 달러의 공백이 존재합니다. 이러한 순환 투자 게임은 세기 전환기의 인터넷 거품 시대에도 나타났던 현상이지만, 오늘날의 밸류에이션 거품 중 절반은 불투명한 사모 신용(private credit) 시장에 숨어 있어 잠재적 위험을 정확히 파악하기가 더욱 어렵습니다.

연준(Fed)의 금리 인상으로 스타트업, 차입 매수(LBO) 등 고위험 채권 시장 이자가 높아지자, 은행들은 바젤 협약 요건에 따라 이 시장에서 물러날 수밖에 없었고, 그 자리를 사모펀드 기관들에게 내어주면서 결국 약 3조 달러 규모의 미국 사모 신용 시장이 탄생하게 되었습니다. Apollo, Ares, Blue Owl, KKR, Blackstone 등의 자산운용 기관들은 BDC(사업 개발 회사)와 직접 대출(Direct Lending)을 통해 데이터센터 건설에 20~30년 만기의 레버리지 대출을 제공하고 있습니다. 이러한 대출은 대개 비공개 협상을 통해 이루어지고 모델로 가격을 평가하며(mark-to-model), 만기 불일치가 발생할 수 있고(LLM처럼 매달 단위로 기술이 발전하는 대상에 30년 현금 흐름을 매칭), 동시에 모델 기업들의 현금 부족으로 인해 보통 현물 이자 지급(PIK, 이자가 원금에 편입) 방식이 적용되어 위험이 중첩되지만 쉽게 드러나지 않습니다. 국제결제은행(BIS)의 한 보고서에 따르면, 현재 주식 1, 2차 시장에서는 AI 산업사슬의 상승 여지를 충분히 가격에 반영했지만, 채무 시장은 아직 하락 위험을 가격에 반영하지 못하고 있다고 합니다.

일단 하류 수요 확장이 더디고 수익이 기대에 못 미치면 순환 투자의 밸류에이션 논리는 붕괴될 것이며(주식 가치 압축), 사모 신용 시장의 모델들은 강제적으로 재평가될 것이고(신용 손실), 거품 붕괴와 주식·채권 동반 하락의 위험은 급증할 것입니다.

(3) 자원에 대한 극심한 갈망이 타 수요를 압박하다

토큰 소비가 촉발하는 컴퓨팅 파워 확장에 따라 컴퓨팅 센터는 물과 전력 등 자원에 대한 극심한 갈망을 보이며, 단기간에 막대한 공급 부족을 야기하여 소재지의 민생용 물과 전력 사용을 압박하는 효과를 발생시킵니다. 미국 버지니아주 북부의 데이터센터 골목(Data Center Alley)은 세계에서 가장 밀도 높은 데이터센터 클러스터를 형성하고 있으며 전 세계 인터넷 트래픽의 약 70%를 처리하고 있습니다. 지역 전력망 용량이 기술 기업들의 장기 도매 계약에 의해 선점됨에 따라 주민과 전통적 상업 시설의 에너지 할당량이 심각하게 압축되고 있습니다.

버지니아주 합동입법감사검토위원회(JLARC)가 2024년 12월 발표한 보고서에 따르면, 데이터센터의 전력 소비량은 이미 버지니아주 최대 원자력 발전소 발전량의 두 배를 넘어섰으며, 라우던 카운티(Loudoun County)에서 계획되었거나 건설 중인 데이터센터의 에너지 수요를 맞추기 위해서만 해도 2030년까지 여러 원자력 발전소에 맞먹는 발전 용량을 전력망에 추가해야 한다. 고압 송전선로와 청정 에너지를 향한 데이터센터의 폭발적인 수요는 지역 유틸리티 회사들로 하여금 막대한 비용을 들여 전력망을 업그레이드하도록 강제하고 있다. Dominion Energy는 향후 15년 동안 전력망 확장에 수십억 달러를 투자할 계획이다. 이 막대한 인프라 비용은 결국 전력망 유지보수비, 용량 요금 등의 형태로 주민들의 월간 전기요금 청구서에 전가될 것이다. Dominion 서비스 지역 내 용량 경매 가격은 29달러/MW-일에서 444달러/MW-일로 폭등해 1400% 이상 상승했으며, 이는 전력망의 발전 및 송전 용량이 심각하게 부족하다는 사실을 직접적으로 반영한다24. 피드몬트 환경 위원회(PEC)가 Dominion Energy의 통합 자원 계획(IRP)을 분석한 결과, 해당 계획의 적용 기간 동안 일반 주민들의 전기요금 청구서가 두 배로 뛸 수 있는 것으로 나타났다. 컴퓨팅 파워 확장이 일상적인 수요를 밀어내는 효과는 버지니아주에만 국한되지 않으며, 아일랜드 더블린, 싱가포르 주롱, 중국 구이저우 등 글로벌 주요 컴퓨팅 거점들도 이와 유사한 갈등을 겪은 바 있다. 이런 의미에서 토큰 불경제는 디지털 세계에만 존재하는 것이 아니라 현실 생활에도 긴 그림자를 드리우고 있다.

토큰 가치 방정식을 찾아서

토큰은 지능 시대의 가장 기본적인 생산 요소 중 하나입니다. 토지, 데이터, 자본, 인력 등 다른 모든 생산 요소와 마찬가지로, 자원의 잘못된 배분과 요소 낭비가 존재하는 한 필연적으로 소위 '디스이코노미'가 발생합니다. 이러한 의미에서 토큰 디스이코노미는 AI 산업 체인이 폭발적으로 성장하는 초기의 일시적 현상에 그치지 않고, 토큰 이코노미와 공존하며 지능 경제 발전의 전 과정에 걸쳐 나타날 것입니다.

구체적으로 현재 시점에서는 토큰 이코노미가 아직 완전히 드러나지 않았기 때문에 토큰 디스이코노미가 상대적으로 두드러집니다. 항상 존재한다고 해서 방치해도 된다는 의미는 아닙니다. 공급과 수요 양 측면에서 힘을 써 토큰 디스이코노미를 줄이고 토큰 이코노미를 강화하여 기술 발전을 실질적인 경제적 가치로 전환해야 합니다.

공급 측에서는 정밀화된 기술 수단을 통해 단위 토큰 비용을 낮추고, 누수와 낭비를 막으며 위험 확산을 방지할 수 있습니다.
수요 측에서는 새로운 애플리케이션 시나리오를 지속적으로 발굴하여 토큰 지출이 가치를 창출하도록 만들 수 있습니다.

공급 측의 비용 하향 곡선과 수요 측의 가치 상향 곡선이 교차할 때, 토큰 이코노미와 디스이코노미가 서로 상쇄된 후 순이익은 마이너스에서 플러스로 전환될 수 있습니다.

（一）기술 측면의 정밀화 혁신

컨텍스트 캐싱과 의미 압축. 컨텍스트 캐싱(Context Caching)은 이미 모델 제공업체들의 일반적인 방식이 되었습니다. 멀티 에이전트 파이프라인이 히스토리 캐시를 빈번히 적중하면 입력 토큰의 과금이 대폭 절감됩니다. 그러나 이 방식은 한계도 있습니다. 복잡한 엔터프라이즈 환경에서는 에이전트 경로가 극도로 분기하여 캐시 분산 실패가 발생하기 때문에 실제 비용 절감 효과는 상대적으로 제한적입니다. 더 근본적인 해법은 컨텍스트 압축에 있습니다. 단순히 히스토리 정보를 슬라이딩하여 잘라내는 것이 아니라, 의미적 차원에서 능동적으로 압축하여 핵심 명령과 추론 체인을 유지하고 중복과 잉여를 제거하는 것입니다. 이러한 시맨틱 컨텍스트 압축(Semantic Context Compression)은 명령 준수율을 보호하면서도 입력 토큰 소비를 현저히 줄일 수 있습니다.

스킬 최적화와 뺄셈의 사고. Gao et al.,（2026）의 SkillReducer 연구는 스킬 최적화를 위한 두 가지 경로를 제시합니다. 첫째, 설명 압축으로, 라우팅 설명이 부족한 스킬에 간결한 정보를 보충하고 중복된 배경 설명과 예시를 압축합니다. 둘째, 점진적 로딩으로 완전한 스킬을 한 번에 컨텍스트에 집어넣지 않고 필요에 따라 로드하여 39%의 스킬 볼륨 압축을 달성할 수 있습니다5. 두 가지를 함께 적용하면 스킬 호출의 토큰 소모를 대폭 줄이면서도 모델 기능 품질은 오히려 2.8% 향상됩니다. 이로부터 에이전트의 스킬 호출은 많을수록 좋은 것이 아니며, 필요할 때는 덜어내는 것이 더하는 것보다 훨씬 큰 이익을 가져온다는 점을 알 수 있습니다. 컨텍스트 내의 무효 정보를 줄이면 토큰 소비를 낮출 뿐만 아니라 모델 출력의 정확성도 높일 수 있습니다. Less is more는 여기서 코드의 미학에 부합할 뿐만 아니라 토큰을 더욱 경제적으로 만듭니다.

모델 라우팅과 작업 분류. 대형 모델로 소 잡는 칼을 사용하는 것은 토큰 낭비의 중요한 원인 중 하나입니다. 작업 복잡도에 따라 적응형 모델 라우팅(Model Routing)을 수행하여, 간단하고 빈도 높은 하위 작업은 특정 분야 능력을 갖춘 오픈소스 경량 모델에 맡기고, 중요한 의사 결정 지점에서만 고가의 프론티어(Frontier) 모델을 사용합니다. 이렇게 계층적으로 호출하면 단위 작업당 평균 토큰 비용을 크게 낮출 수 있으며, 중요한 부분의 품질을 희생하지도 않습니다.

멀티 에이전트 예산 하드 제약과 사회자 아키텍처. 역할 분담, 예산 상한선, 명시적 중단 조건이 없는 멀티 에이전트 시스템은 마라톤 같은 다과회로 변질될 확률이 크게 높아집니다. 해결 경로는 멀티 에이전트 협업 네트워크에 하드 예산 제약(Hard Budget Constraints)과 비동기 조정 메커니즘을 갖춘 사회자 아키텍처를 설계하는 것입니다. Luo et al.,（2026）이 제안한 몬테카를로 트리 탐색 방법은 멀티 에이전트 프로세스에 중간 단계의 도구 검증을 추가하여 후보 상태를 저장하고 필요 시 롤백합니다. 이러한 사고를 추론 차원에서 아키텍처 차원으로 끌어올려, 각 하위 작업마다 토큰 예산 상한을 설정하고, 사회자 에이전트가 전체 소비를 모니터링하여 예산 소진 전에 무효 루프를 강제 종료할 수 있습니다7. 이는 재정적 통제 불능을 방지할 뿐만 아니라, 종종 시스템의 전체 효율성도 동시에 향상시킵니다.

（二）비즈니스 측면의 가치 앵커링

토큰 거버넌스와 비용 기강. 마이크로소프트의 Claude Code 제한, 메타의 토큰 소비 순위표 철회 등, 빅테크들은 이미 단순한 토큰 소비 장려에서 벗어나 토큰 생산성과 비용 기강을 강조하는 방향으로 전환하고 있습니다1,2. 할당량, 승인, 모델 라우팅, 비용 귀속, 팀 청구서 등은 미래에 기업 AI 거버넌스의 기본 방식이 될 가능성이 높습니다. 이는 AI가 생산 시스템에 진입한 후 반드시 거쳐야 하는 단계로, AI가 혁신 촉진과 생산 가속화를 위한 유력한 도구라 할지라도 반드시 계산을 명확히 해야 합니다. 얼마나 많은 토큰을 사용했는지, 검증 가능한 산출물을 얼마나 만들어냈는지, 얼마나 재작업을 초래했는지 모두 계측되어야 합니다. 계측이 없으면 관리도 없고, 상한선이 없으면 기강도 없습니다. 진정으로 선진적인 기업은 AI를 가장 많이 사용하는지가 아니라, 가장 적은 토큰으로 가장 많은 작업을 완료하는지를 평가합니다.

배급제가 일반화될 것입니다. 기업은 토큰을 무한정 공급하지 않으며, 클라우드 컴퓨팅 자원을 관리하듯이 예산 풀과 승인 프로세스를 설정할 것입니다. 이러한 거버넌스는 기술 혁신과 대립하지 않습니다. 오히려 배급제가 아키텍트로 하여금 더 효율적인 에이전트 시스템을 설계하도록 압박하여 비용 제약을 내재화할 것입니다.

토큰의 대규모 상업적 응용을 위한 현실 시나리오를 찾아야 합니다. 이것이 토큰 순이익을 플러스로 전환하는 근본입니다. 프로그래밍과 지능형 에이전트 아키텍처는 토큰 이코노미를 향한 작은 한 걸음에 불과하며, 막대한 생산성 도약을 일으킬 수 있는 비즈니스 시나리오를 찾는 것이 토큰 이코노미 발전의 빠른 길로 진입하여 막대한 경제적 가치를 창출하기 위한 전제 조건입니다. 현재 실제 비즈니스 시나리오에서 지능형 에이전트 아키텍처를 대규모로 적용하여 막대한 수익을 낸 사례는 여전히 적고, 대부분 개별 사례에 그칩니다. 다른 기업, 다른 산업으로 폭넓게 확장 가능한 범용 솔루션은 여전히 구상 단계에 있습니다.

체화된 지능과 디지털 트윈은 확장 방향 중 하나이지만, Sim-to-Real Gap이 초래하는 비대칭적 검증 비용을 직시해야 합니다. 더 실용적인 경로는 전통 산업에서 약한 결정론적 피드백을 갖춘 중간 지대를 찾는 것입니다. 예를 들어 보조 진단의 영상 선별(영상의학적 기준 참조 가능), 공급망의 수요 예측(과거 데이터로 백테스팅 가능), 법률 분야의 계약 초기 심사(조항 템플릿으로 비교 가능)와 같은 것들입니다. 이들 시나리오의 검증 비용은 컴파일러 수준으로 0에 가깝지는 않지만, 순수한 물리적 세계 검증보다는 훨씬 낮아, 토큰 이코노미가 디지털 샌드박스에서 현실 세계로 나아가는 가교가 될 수 있습니다. OpenAI가 최근 로봇 연구를 재개한 것은, 체화된 지능이 비록 어렵지만 결코 우회할 수 없음을 시사합니다.

（三）ROI로의 회귀

창출된 가치가 소비된 비용을 초과하지 못하는 투자는, 기술이 아무리 뛰어나더라도 결국 지속 불가능합니다. 토큰 디스이코노미는 기술의 실패가 아니라, 기술이 대규모 생산으로 나아갈 때 흔히 마주치는 일시적 난관입니다. 마치 산업 혁명 초기의 증기 기관처럼 효율이 낮고 석탄 소비가 막대했지만, 이것이 증기 기관이 생산력 발전의 미래 방향이라는 점을 부정하지는 못했습니다. 지속적인 열효율 개선과 응용 시나리오 확장을 통해 증기 동력은 결국 1차 산업 혁명을 견인하는 가장 근본적인 힘이 되었습니다.

오늘날의 토큰과 에이전트 아키텍처는 초기 증기 기관과 같아서 소음이 크고 연료 소모가 많지만, 특정 시나리오에서는 이미 인간을 훨씬 능가하는 잠재력을 보여주고 있으며, 향후 발전은 거친 방식에서 정밀한 방식으로 이어지는 연속적인 기술 혁신이 될 것입니다. 미래에 더 가치 있는 에이전트는 사고 연쇄(Chain of Thought)가 가장 복잡한 에이전트가 아니라, 가장 적은 토큰으로 일을 해내는 에이전트입니다.

업계가 많음을 자랑하던 기술 과시 단계에서 정밀함을 귀하게 여기는 생산 단계로 접어들고, 모든 토큰 소비에 대해 그 산출물이 어떤 가치가 있는지 답해야 할 때, 토큰이 투자 수익률(ROI)이라는 황금률로 회귀하면, 에이전트 시대는 자신만의 가치 방정식을 찾게 될 것입니다.