IOSG: 추론 능력이 희소한 자원이 될 때, 누가 그 가치를 차지하게 될까요?

저자｜프랭크 푸 @ IOSG

데이비드 칸이 2023년에 지적했던 학습(training) 측면의 공백은 메워지지 않았습니다. 추론(inference) 측면에서는 메워졌지만, 시장은 최근 몇 주 동안에야 비로소 이를 가격에 반영하기 시작했습니다. 엔비디아가 "서비스 토큰"을 중심으로 재무제표를 재편하고, 세레브라(Cerebras)의 IPO가 20배나 초과 청약되면서 병목 현상에 대한 논쟁은 끝났습니다. 이제 진정한 질문은 추론이 희소 자원이 될 때 컴퓨팅 스택의 어느 부분에서 가치가 창출될 것인가입니다.

GPU의 등장: 2천억 달러 규모의 문제에서 6천억 달러 규모의 문제로

2023년, 세쿼이아 캐피털의 데이비드 칸은 전체 AI 인프라에 드리워진 "2천억 달러 문제"를 제기했습니다. GPU 구매에 1달러를 투자할 때마다 데이터 센터에서 GPU를 구동하는 데 약 1달러가 추가로 소요됩니다. 따라서 매년 GPU에 대한 자본 지출(CapEx)이 발생하면 궁극적으로 이 칩들이 투자금을 회수하려면 약 2천억 달러의 매출을 창출해야 합니다. AI 매출에 대해 매우 낙관적인 가정을 하더라도, 그는 "투자"와 "최종 고객의 실제 지불" 사이에 1,250억 달러 이상의 격차가 있음을 발견했습니다. 우려는 분명합니다. GPU가 실제 수요를 앞지르며 과잉 생산되고 있다는 것입니다.

1년 후, 그 격차는 좁혀지기는커녕 오히려 벌어졌습니다. 2024년 후속 보고서에서 칸은 하이퍼스케일 제조업체들의 자본 지출(CapEx) 증가를 두고 이를 "6천억 달러 문제"로 재정의했습니다. 비관적인 논리는 익숙한 형태로 귀결되었습니다. 과잉 건설은 과잉 공급으로 이어지고, 과잉 공급은 자본을 소진시킨다는 것입니다.

두 기사 모두 본질적으로 같은 질문을 던지고 있습니다. 누가 이 공백을 메울 것인가? 그 답은 "훈련" 측면에서는 전혀 찾아볼 수 없었습니다. 오히려 추론 측면에서 나타나며, 시장은 불과 몇 주 전부터야 비로소 이를 가격에 반영하기 시작했습니다.

세레브라스 IPO와 인퍼레이션 스퀴즈

세레브라스가 목요일에 기업공개(IPO)를 실시했습니다. IPO는 20배나 초과 청약되었으며, 공모가는 수요일 최종 호가보다 거의 두 배나 높았습니다. 이러한 수요는 '차기 엔비디아 킬러'에 대한 기대감에서 비롯된 것이 아니라, 훨씬 더 단순한 이유에서 나온 것입니다. 바로 인공지능의 진정한 병목 현상은 학습이 아니라 추론이라는 사실을 시장이 깨닫기 시작했기 때문입니다.

세레브라스의 핵심 강점은 극도로 빠른 추론을 가능하게 하는 칩 아키텍처에 있습니다. 학습이 아닌 추론 말입니다. 바로 이 점이 월스트리트를 들썩이게 하는 부분입니다. 추론 시장은 사용량에 따라 지속적으로 확장됩니다. 클로드(Claude)가 질문에 답할 때마다, 에이전트가 작업을 수행할 때마다 컴퓨팅 파워가 소모됩니다. 학습은 한 번만 이루어지지만, 추론은 결코 멈추지 않습니다.

JP Morgan은 추론 시장 규모가 학습 시장 규모의 10~50배에 달할 것으로 추정합니다. 기계가 다른 기계가 할당한 작업을 수행하기 시작하면(에이전트 수준의 확장) 추론에 대한 수요는 더 이상 사용자 수에 비례하여 증가하는 것이 아니라 컴퓨팅 성능 자체에 비례하여 증가하게 됩니다.

엔비디아가 판도를 뒤바꿔 갑니다: 추론 기능이 주목받고 있습니다

세레브라스가 시장의 각성을 불러일으켰다면, 엔비디아의 최근 분기별 실적 보고서는 업계 최고 기업으로서 이를 확인시켜주는 증거입니다. 젠슨 황 CEO는 이번 실적 발표에서 암묵적인 메시지를 명확히 전달했습니다. 바로 AI 수요가 기하급수적으로 증가하고 있다는 것입니다. 그 이유는 간단합니다. 민첩한 AI가 등장했기 때문입니다. 주류 AI는 일회성 추론에서 논리적 추론으로, 그리고 이제는 도구를 자율적으로 호출하고 작업을 조율할 수 있는 에이전트 단계로 진입하고 있습니다. 황 CEO는 "이제 토큰이 수익성이 있다"고 말했습니다. AI 시대에는 컴퓨팅 파워가 곧 매출과 이익입니다.

이로 인해 업계 전체가 재편되었습니다. 학습은 모델 구축에 드는 일회성 비용인 반면, 추론은 모델 실행에 드는 지속적인 비용입니다. 이제 병목 현상은 학습이 아니라 추론에서 발생합니다.

엔비디아는 이러한 평가를 재무제표에 반영했습니다. 이제 데이터 센터와 엣지 컴퓨팅이라는 두 가지 플랫폼으로 나누어 공개하고 있습니다. 데이터 센터(분기 매출 약 750억 달러, 전년 동기 대비 92% 증가)는 하이퍼스케일(380억 달러, 전분기 대비 12% 증가)과 ACIE(AI 클라우드, 산업 및 엔터프라이즈, 370억 달러, 전분기 대비 31% 증가)로 세분화됩니다. 새롭게 추가된 엣지 컴퓨팅 부문은 64억 달러(전년 동기 대비 29% 증가)로, PC, 워크스테이션, AI-RAN 기지국, 로봇, 자동차 등 AI가 실제로 실행되는 엔드포인트를 포괄합니다.

현재 엣지 컴퓨팅은 전체 매출의 8% 미만을 차지하고 있지만, 엔비디아는 이를 데이터 센터와 함께 "제2의 플랫폼"으로 격상시켰습니다. 이는 추론이 데이터 센터의 클라우드 추론과 엣지에서의 엔드포인트 추론, 이렇게 두 가지 영역으로 나뉘고 있음을 시사하며, 이를 통해 AI는 물리적 세계에서 보고, 움직이고, 행동할 수 있게 됩니다. 로드맵 역시 같은 맥락으로 진행됩니다. 3분기 출시 예정인 Vera Rubin은 Blackwell보다 최대 35배 빠른 추론 처리량을 자랑하며, 엔비디아의 CEO인 황 CEO는 학계용으로 설계된 Vera CPU의 총 시장 규모(TAM)를 2,000억 달러로 새롭게 설정했습니다. 모든 선도적인 모델링 기업들은 출시 첫날부터 Vera를 적극적으로 도입할 것으로 예상됩니다.

병목 현상에 대한 논쟁은 세계에서 가장 가치 있는 기업들이 "서비스 토큰"을 중심으로 재무 공시 방식을 재구성하면서 사실상 종결되었습니다. 이 글의 나머지 부분에서는 추론(학습이 아닌)이 희소 자원이 될 때 누가 가치를 차지하는지 논의합니다.

먼저 논의 범위를 명확히 합시다. 이 논의에서는 클라우드 추론, 특히 API 토큰 서비스를 제공하는 임대 데이터 센터 GPU에 초점을 맞춥니다. 엔드포인트 추론은 디바이스의 내부 로컬 칩(Nvidia의 Jetson, RTX, Drive, AI-RAN)에서 실행되므로 기본 GPU 임대 및 집계 스택을 완전히 우회합니다. 여기서는 이를 전체 추론 경제를 증폭시키고 병목 현상 주장을 뒷받침하는 순풍으로 간주하며, Hyperbolic과 Venice가 운영하는 클라우드 시장만을 지칭하는 것은 아닙니다.

압박이 시작됐다.

앤스로픽은 마치 탄광 속 카나리아와 같습니다. 사용량이 사전 구성된 용량을 훨씬 초과하면서 클로드(Claude)가 "뇌엽절제술"을 받은 듯한 상태에 빠졌다는 불만이 인터넷에 쏟아지고 있습니다. 여기에는 응답 속도 제한, 추론 속도 저하, 컨텍스트 창 압축 등이 포함됩니다. 해결책은 바로 강력한 컴퓨팅 성능입니다. 2026년 5월, 앤스로픽은 스페이스X(SpaceX)로부터 콜로서스 1(Colossus 1) 데이터 센터 전체를 인수했습니다. 22만 개 이상의 엔비디아(Nvidia) GPU와 300메가와트(MW) 이상의 전력을 갖춘 이 데이터 센터는 학습이 아닌 추론 전용으로 사용될 예정입니다.

용량 확대로 인해 일련의 제한 변경이 발생했으며, 각 변경 사항은 하나의 신호였습니다. 5월 6일, Anthropic은 Claude Code의 5시간 사용 제한을 두 배로 늘리고, 피크 시간대 사용량 제한을 해제했으며, Opus의 API 사용량 제한을 대폭 상향 조정했습니다. 5월 13일에는 Claude Code의 주간 사용량 제한을 50% 추가 증량했습니다(7월 13일까지). 그리고 6월 15일부터는 정반대의 조치를 취했습니다. 에이전트 및 프로그래밍 방식 사용(Agent SDK, 헤드리스 claude -p, CI 파이프라인)을 정액 구독에서 제외하고 별도의 사용량 기반 크레딧 풀(월 20달러~200달러, API 가격으로 청구)로 전환했습니다. 이 마지막 조치는 전체 논거를 하나의 행동으로 요약합니다. 즉, 에이전트가 정액 구독 설계가 처리할 수 있는 속도보다 훨씬 빠르게 추론을 소비하므로 원래의 "반복 비용"에 따라 가격을 책정해야 한다는 것입니다.

교육은 일회성 자본 지출입니다. 반면 추론은 새로운 사용자와 에이전트가 추가될 때마다 이자와 함께 누적되는 반복적인 운영 비용입니다.

이 스택은 6개의 층과 1개의 병목 현상으로 구성되어 있습니다.

모든 AI 애플리케이션은 TSMC 웨이퍼 제조 공장에서 시작하여 API 엔드포인트에서 끝나는 공급망 위에 존재합니다.

대부분의 회사는 한 가지 계층만 소유합니다. 엔비디아는 실리콘을, 코어위브는 베어메탈을, 투게더 AI는 추론 최적화를, 오픈라우터는 모델 API 라우팅을 소유합니다.

단 한 가지 예외가 있었다.

하이퍼볼릭: 3개 층에 걸쳐 있는 유일한 회사

Hyperbolic은 2025년 6월에 온디맨드 GPU 마켓플레이스를 출시했습니다. 출시 후 몇 달 만에 20만 명이 넘는 개발자를 확보했으며, 최첨단 AI 연구소, 검색 엔진, 주요 소비자 플랫폼 등 다양한 분야에서 활용되고 있습니다.

흥미로운 점은 그 건축 양식입니다.

Hyperbolic은 자체 GPU를 하나도 보유하고 있지 않습니다. 모든 그래픽 카드는 CoreWeave, Lambda Labs, Nebius를 비롯한 네오클라우드 및 데이터 센터와 유휴 용량을 보유한 소규모 업체에서 제공됩니다. 이는 약점처럼 보일 수 있지만, 실제로는 강력한 경쟁 우위 요소입니다.

Hyperbolic은 GPU 공급업체와 소비자 사이에 위치하여 다른 업체들이 볼 수 없는 실시간 데이터를 파악할 수 있습니다. 누가 어떤 GPU를 어떤 가격에 언제 구매하는지 알 수 있고, 공급 과잉이 공개되기 전에, 수요 급증이 시장에 영향을 미치기 전에 이를 예측할 수 있습니다.

오늘날, 경쟁 우위를 확보하는 핵심 요소는 바로 이러한 멀티 클라우드 통합입니다. Hyperbolic은 수십 개의 독립적인 클라우드와 데이터 센터에 분산된 용량을 표준화된 통합 풀로 연결하여 개발자들이 각 운영자와 협상하거나 여러 계정을 관리할 필요 없이 어디서든 가장 저렴한 GPU를 임대할 수 있도록 합니다. 연결되는 클라우드가 많을수록 유동성이 풍부해지고 가격 데이터도 더욱 풍부해집니다. 앞으로 Hyperbolic 팀은 이러한 데이터를 활용하여 GPU 가격 곡선을 모델링하고 궁극적으로 자체 자본을 투자하여 공급과 수요를 조절함으로써 물리적 컴퓨팅 파워의 시장 조성자 역할을 하는 방안을 모색하고 있습니다. 하지만 이러한 목표는 아직 초기 단계이며, 현재 상황을 더욱 악화시키는 것은 바로 이러한 통합 계층입니다.

이것이 플라이휠입니다.

더 많은 클라우드에 연결 → 더욱 통합된 공급
공급량 증가 → 더욱 심층적인 시장 분석 및 실시간 가격 데이터 제공
더 나은 데이터는 현재 더 스마트한 경로 설정으로 이어지고, 장기적으로는 가격 모델 개선으로 이어집니다.
유동성 및 가격 개선 → 개발자 증가 → 클라우드 컴퓨팅 리소스 확대

다른 어떤 회사도 이런 시도를 하지 않습니다. 하이퍼볼릭은 GPU 임대 계층, 배포 계층, 모델 API 계층을 동시에 아우르는 유일한 회사입니다.

베니스, 거울

Venice는 애플리케이션 계층에서 추론 경제를 가장 명확하게 구현한 사례이며 Hyperbolic의 입장과 유용한 대조를 이룹니다. Venice는 개인정보 보호를 최우선으로 하는 추론 애플리케이션으로, OpenAI 호환 API와 소비자 구독 서비스(무료/Pro/Pro+/Max)를 통해 약 75개의 모델에 요청을 전달합니다. 이 중 약 3분의 2는 오픈 소스 또는 자체 호스팅 모델(Llama, Mistral, Qwen, DeepSeek)이고, 나머지는 최첨단 비공개 소스 모델을 익명으로 통과시키는 방식입니다. 중요한 점은 Venice 자체가 실질적인 컴퓨팅 파워를 보유하고 있지 않다는 것입니다. 공개되지 않은 GPU 파트너 및 기밀 컴퓨팅 제공업체(NEAR AI Cloud, Phala)로부터 컴퓨팅 파워를 임대하고, 최첨단 연구소에 통과 비용을 지불하는 방식이므로, 실제 수익 비용은 SaaS 호스팅이 아닌 추론 컴퓨팅 파워에서 발생합니다.

베니스는 진정한 의미의 프라이버시를 판매하고 있습니다. 여기서 말하는 "프라이버시"는 공공 컴퓨팅 파워를 사유 재산으로 바꾸는 것이 아니라, 상품화된 추론 연산에 보호막을 씌우는 것을 의미합니다. 데이터 보존 금지, 학습용 데이터 사용 금지, 익명화 요청, 그리고 작업 부하의 일부는 TEE(신뢰할 수 있는 실행 환경) 내에서 실행되어 운영자조차 확인할 수 없도록 하는 것입니다. 기본 컴퓨팅 파워는 이미 확보되어 있으며, 추가 비용은 바로 이 프라이버시 보호 계층에 있습니다. 더욱이, 이러한 보호는 계층적이며 균일하지 않습니다. 자체적으로 관리하거나 TEE GPU에서 실행되는 오픈 소스 모델의 경우, 거의 종단 간 기밀성이 확보된 연산이 가능하지만, Claude나 GPT와 같은 클로즈드 소스 모델의 익명 패스스루의 경우, 프라이버시는 단순히 사용자의 신원을 제거하는 데 그칩니다. 최첨단 연구소는 여전히 사용자의 원래 입력값을 처리하고 있는 것입니다. 따라서 가장 강력한 프라이버시는 오픈 소스 모델 부분에만 적용되며, 최첨단 모델 부분은 "익명"일 뿐 "진정한 기밀성"을 보장하는 것은 아닙니다. 베니스의 총이익은 구독료에서 하위 사용자에게 지불하는 추론 비용을 뺀 금액이며, 순수 API 가격 대비 추가 수익은 거의 전적으로 이러한 개인정보 보호 프리미엄에서 비롯됩니다. 이것이 바로 베니스의 이윤폭이 낮고 최첨단 패스스루 가격 책정에 제약을 받는 이유입니다.

토큰 디자인은 이러한 추론 수요를 반영합니다. 베니스는 VVV(스테이킹 및 플랫폼 접근)와 DIEM이라는 두 가지 토큰으로 운영됩니다. DIEM은 추론 크레딧으로, 1 DIEM은 대략 1달러 상당의 일일 컴퓨팅 파워에 해당합니다. 유료 구독은 프로그램 방식으로 VVV 토큰을 매입 및 소각합니다(Pro/Pro+/Max 구독 시 각각 약 2달러/5달러/10달러). VVV 토큰 발행량은 정해진 일정에 따라 감소합니다. 매월 600만 → 500만 → 400만 VVV가 발행되며, 7월 1일에는 300만 VVV로 줄어듭니다. 매입은 실제로 이루어지지만, 재량에 따라 진행되며 규모는 여전히 상대적으로 작습니다. 4월과 5월에는 각각 약 10만 3천 달러 상당의 토큰이 소각되었고, 6월에는 약 11만 달러까지 서서히 증가하고 있지만, 월간 목표치인 20만 달러에는 훨씬 못 미칩니다.

펀더멘털은 헤드라인에서 암시하는 것보다 훨씬 건전합니다. 공개적으로 언급된 "연간 반복 매출(ARR) 7천만 달러"라는 수치는 구독 갱신을 신규 고객 확보로 잘못 해석한 것일 가능성이 매우 높습니다. 보다 현실적이고 관찰 가능한 범위는 ARR 600만 달러에서 1,500만 달러 사이입니다. 이보다 낮은 수치에서도 성장세는 분명히 나타납니다. 약 13만 6천 개의 암호화폐 주소, 월평균 약 990만 건의 웹사이트 방문(일평균 약 33만 건), 그리고 하루 평균 약 1,400건의 신규 프로 구독이 이루어지고 있습니다. 이는 실질적인 사업이지만, 마진은 낮으며, 경제성은 구매하는 컴퓨팅 파워에 의해 제약을 받습니다.

바로 이러한 이유로 Hyperbolic은 한 단계 위에 자리 잡고 있습니다. Venice가 주유소라면 Hyperbolic은 정유소와 같습니다. Venice는 모두가 의존하는 제한된 공급원에서 컴퓨팅 파워를 구매합니다. Hyperbolic은 이러한 분산된 공급을 통합하고 표준화한 다음 Venice와 같은 모든 기업에 판매합니다. 추론 수요가 증가함에 따라 컴퓨팅 파워를 소비하는 애플리케이션뿐만 아니라 컴퓨팅 파워를 통합하고 라우팅하며 이러한 애플리케이션이 지불하는 수익 비용을 확보하는 계층에도 가치가 축적됩니다.

이 문제가 지금 이 시점에 중요한 이유는 무엇일까요?

엔비디아는 "서비스 토큰"을 중심으로 재무 구조를 재편했습니다. 세레브라스의 IPO는 추론이 병목 현상이라는 점을 시장이 인지하고 있음을 보여주었습니다. 앤트로픽의 용량 개선 노력은 이것이 실질적인 문제임을 입증합니다. 에이전트형 및 물리적 AI는 클라우드 컴퓨팅과 엣지 컴퓨팅 모두에 걸쳐 수요를 기하급수적으로 증가시킬 것입니다.

이는 또 다른 관점에서 "6천억 달러 문제"의 순환 고리를 완성합니다. 칸의 비관적인 논리, 즉 과잉 건설에 이은 과잉 공급은 결국 입증될 가능성이 높습니다. 하지만 과잉 공급은 자산 경량형 애그리게이터에게 최적의 시장 환경입니다. GPU 가격이 하락하고 공급이 수십 개의 클라우드에 분산되면, 하드웨어를 전혀 보유하지 않고 모든 워크로드를 가장 저렴한 카드로 라우팅하는 업체가 가격 차이로 이익을 얻는 반면, 지속적으로 가치가 하락하는 GPU를 보유한 업체는 손실을 감수하게 됩니다. 하이퍼볼릭은 과잉 공급에 대해 공매도가 아닌 장기 투자를 하고 있는 것입니다.

궁극적으로 승리하는 회사는 가장 많은 GPU를 보유한 회사가 아니라, GPU의 위치와 가격을 파악하고 각 작업 부하를 가장 저렴한 비용으로 실행할 수 있는 곳으로 라우팅할 수 있는 회사일 것입니다.

Hyperbolic은 GPU를 소유하지 않고, 순수하게 소프트웨어로 운영되며, 3계층 구조를 가진 회사를 구축하고 있지만, 추론 컴퓨팅 성능을 위한 궁극적인 통합 계층이 되는 것을 목표로 하고 있습니다.