IOSG：當推理成為稀少資源，價值由誰捕獲

作者｜Frank Fu @ IOSG

2023 年David Cahn 提出的那個窟窿，從未在訓練側被填上。它被填入了推理側，而市場只是在過去幾週才開始把它計入定價。當英偉達圍繞「服務token」重組財報口徑、Cerebras 上市獲20 倍超額認購，瓶頸之爭已經結束，真正的問題變成了下一個：當推理成為稀缺資源，價值會沉澱在算力棧的哪一層。

跟著GPU 走：從2000 億美元問題到6000 億美元問題

2023 年，Sequoia 的David Cahn 提出了懸在整個AI 建設之上的這個問題，即「2000 億美元問題」。每花1 美元買GPU，大約還要再花1 美元在資料中心裡給它供電，因此每一年的GPU CapEx，都意味著這些晶片最終必須產生約2,000 億美元的收入才能收回這筆資本。即便對AI 收入做出非常慷慨的假設，他仍發現「投入」與「終端客戶實際付費」之間存在著一個1,250 億美元以上的窟窿。擔憂很直白：GPU 正被超前於真實需求地過度建造。

一年之後，缺口非但沒有收窄，反而擴大了。 Cahn 在2024 年的續作裡，隨著超大規模廠商CapEx 膨脹，把它重新定義為「6000 億美元問題」。看空邏輯收斂成熟悉的形狀：過度建設導致供給過剩，而過剩會燒毀資本。

兩篇文章其實都在問同一件事：誰來填這個窟窿？答案從未出現在「訓練」這一邊的帳簿上。它出現在inference（推理）這一側，而市場只是在過去這幾週才開始把它計入定價。

Cerebras IPO 與推理擠壓

Cerebras 週四上市。這次IPO 獲得20 倍超額認購，定價接近週三最終加價的兩倍。需求並非來自對「下一個Nvidia 殺手」的押注，而是源自於一件更簡單的事：市場開始意識到，在AI 中真正的瓶頸是inference，而不是訓練。

Cerebras 的看家本領，是一種讓推理極快的晶片架構。不是訓練，是推理。這正是讓華爾街興奮的點。 inference 市場是經常性的，它隨使用量擴張。每一次Claude 回答問題、每一次agent 執行任務，都在消耗算力。訓練只發生一次，推理永不停止。

JP Morgan 把inference 市場規模估算為訓練的10 到50 倍。當機器開始執行由其他機器下達的任務，即agentic（智能體）式擴張，inference 需求就不再隨用戶數擴張，而是隨算力本身擴張。

Nvidia 重畫版圖：推理成為頭條

如果說Cerebras 是市場的覺醒，那麼Nvidia 最新一季財報就是來自產業鏈頂端的確認。在最新財報電話會上，Jensen Huang 把那句心照不宣的話挑明了：AI 需求正在呈拋物線式增長。原因很簡單：agentic AI 已經到來。主流AI 已經從一次性推理，過渡到邏輯推理，再進入會自行呼叫工具、編排任務的agent 階段。 Huang 說，「Tokens 現在是有利可圖的。」在AI 時代，算力就是收入和利潤。

這重塑了整個產業。訓練是建立一個模型的一次性成本，inference 則是運行它的經常性成本，而如今的瓶頸在推理，不在訓練。

Nvidia 把這個判斷寫進了自己的財報口徑。現在它以兩個平台揭露，而非一個：Data Center（資料中心）與Edge Computing（邊緣運算）。資料中心（當季約750 億美元，年比+92%）進一步拆為Hyperscale（約380 億美元，季約+12%）及ACIE，即AI 雲端、工業與企業（約370 億美元，季報+31%）。全新的一條線是Edge Computing：64 億美元，年比+29%，涵蓋agentic AI 和physical AI 真正運作的終端，例如PC、工作站、AI-RAN 基地台、機器人和汽車。

邊緣目前仍佔總收入不到8%，但Nvidia 已將它提升到與資料中心並列的「第二平台」。這個訊號是：inference 正在分裂為兩條戰線，資料中心裡的cloud inference（雲端推理），以及邊緣側的endpoint inference（端點推理），AI 要在物理世界裡看見、移動並行動。路線圖遵循同樣的邏輯：從第三季開始出貨的Vera Rubin，推理吞吐量最高可達Blackwell 的35 倍；Huang 也為面向agentic 負載打造的Vera CPU 給出了一個全新的2000 億美元TAM。每個前沿模型公司預計都會在第一天就全面轉向它。

當地球上市值最高的公司圍繞著「服務token」重組財務披露時，瓶頸之爭就已塵埃落定。本文餘下的部分，討論的是當inference（而非訓練）成為稀缺資源後，價值由誰捕獲。

先做一個範圍說明。在這兩條戰線中，本文討論的是cloud inference，即對外提供API token 服務的、租來的資料中心GPU。 endpoint inference 跑在裝置本身內部的本地晶片上（Nvidia 的Jetson、RTX、Drive、AI-RAN），完全不經過其下的GPU 租賃與聚合棧。在這裡，請把它視為放大整個inference 經濟、佐證瓶頸論點的順風，而非Hyperbolic 和Venice 所在的市場，這兩家完全處在雲端那條線上。

擠壓已經到來

Anthropic 是煤礦裡的金絲雀。使用量遠超預先配置的產能，關於Claude 被「腦葉切除」的抱怨刷屏全網，包括被限流的回复、變慢的推理、被壓縮的上下文窗口。解法是赤裸裸的算力：2026 年5 月，Anthropic 從SpaceX 手中接管了整個Colossus 1 資料中心，22 萬+ 張Nvidia GPU、300+ 兆瓦，並將其專門用於inference，而非訓練。

這部分產能解鎖了一連串限額變動，每次都是一個訊號。 5 月6 日，Anthropic 將Claude Code 的五小時限額翻倍、取消尖峰時段限流，並大幅提高Opus 的API 速率限制。 5 月13 日，又把Claude Code 的周限額再提高50%（至7 月13 日）。隨後，從6 月15 日起，它做了與「慷慨」相反的事：把agentic 與程式化使用（Agent SDK、無頭模式claude -p、CI 流水線）從扁平訂閱中切出去，放進一個獨立計量的credit 池（每月20 至200 美元，按API 價格計費）。最後這一步把整套論點濃縮在一個動作裡：agent 消耗inference 的速度，遠超扁平訂閱的設計承受能力，因此必須按它本來的「經常性成本」來定價。

訓練是一次性的資本支出。 inference 是一項經常性的營運成本，隨每一個新用戶、每一個新agent 而複利累積。

這套棧：六層，一個瓶頸

每一個AI 應用，都坐落在一條從TSMC 晶圓廠開始、到API 端點結束的供應鏈上：

大多數公司只擁有其中一層。 Nvidia 擁有矽，CoreWeave 擁有裸金屬，Together AI 擁有推理優化，OpenRouter 擁有模型API 路由。

只有一家除外。

Hyperbolic：唯一橫跨三層樓的公司

Hyperbolic 於2025 年6 月推出其按需GPU 市場。在最初幾個月裡，它的開發者數量就突破了20 萬+，採用方覆蓋前沿AI 實驗室、搜索，以及大型消費級平台。

有趣的是它的架構。

Hyperbolic 自己一張GPU 都不持有。每一張卡都來自neocloud 和資料中心，包括CoreWeave、Lambda Labs、Nebius，以及手握閒置產能的較小業者。這聽起來像是弱點，其實是護城河。

透過坐在GPU 供給方與消費方之間，Hyperbolic 能看到別人看不到的即時數據。它知道誰在以什麼價格、什麼時間買什麼GPU。它在供給過剩公開化之前就看到它，在需求飆升衝擊市場之前就看到它。

如今，護城河本身就是這套multi-cloud 聚合。 Hyperbolic 把來自數十個獨立雲端與資料中心的碎片化產能，縫合成一個標準化的統一池，讓開發者無需與每一家運營商談判、也無需管理一堆帳戶，就能在任何地方租到最便宜的可用GPU。它存取的雲越多，流動性越深，定價資料越豐富。再往後，團隊正在探索如何用這些數據來建模GPU 價格曲線，並最終投入自有資本來平滑供需，扮演物理算力的做市商角色；但這一目標仍處早期，真正在當下複利的是聚合層。

這就是飛輪：

存取更多雲→ 更多被聚合的供給
更多供給→ 更深的市場與即時定價數據
更好的數據→ 當下更聰明的路由，長期則是定價模型
更好的流動性與價格→ 更多開發者→ 更多雲想接入

沒有其他公司在嘗試這件事。 Hyperbolic 是唯一同時橫跨GPU 租賃層、部署層與模型API 層的公司。

Venice 這面鏡子

Venice 是inference 經濟體在應用層最清晰的體現，也是與Hyperbolic 所處位置的一個有用對照。它是一個隱私優先的推理應用：一套OpenAI 相容的API，加上面向消費者的訂閱（Free / Pro / Pro+ / Max），把請求路由到約75 個模型上，其中約三分之二是開源或自託管模型（Llama、Mistral、Qwen、DeepSeek），其餘是對閉源或自託管模型（Llama、Mistral、Qwen、DeepSeek），其餘是對閉源模型前沿模型的匿名透傳。關鍵在於，Venice 自己並不擁有有意義的算力。它從未公開的GPU 合作方和機密運算供應商（NEAR AI Cloud、Phala）那裡租用，並向前沿實驗室付費做透傳，所以它真正的cost of revenue 是inference 算力，而非SaaS 託管。

Venice 真正賣的是隱私。這裡說的「隱私化」不是把公共算力變成私產，而是給商品化的推理裹上一層保證：不留存資料、不拿去訓練、請求匿名化，部分負載還跑在TEE 裡，讓業者自己都看不到明文。底層算力是大路貨，加價賣的就是這層privacy 包裝。而且這層保證是分層的、並不均質：對跑在自己控製或TEE GPU 上的開源模型，能做到接近端到端的機密計算；但對跑在自己控製或TEE GPU 上的開源模型，能做到接近端到端的機密計算；但對Claude、GPT 這類閉源模型的匿名透傳，隱私只是剝離身份，前沿實驗室那端仍在處理你的原始prompt。所以最強的隱私只涵蓋開源那部分，前沿模型那部分是「匿名」而非「真機密」。 Venice 的毛利= 訂閱價− 向下游支付的inference 成本，而它能比裸API 價多收的那部分，幾乎全靠這層privacy 溢價撐著，這也是它薄利、且受制於前沿透傳定價的原因。

代幣設計把這部分inference 需求包裝了起來。 Venice 跑在兩個代幣上：VVV（質押與平台准入）和DIEM，後者是一種inference credit，每個DIEM 約等於每天1 美元的算力。付費訂閱會觸發VVV 的程式化回購銷毀（Pro / Pro+ / Max 分別約2 / 5 / 10 美元），排放則以固定時間表遞減：每月6M → 5M → 4M VVV，並在7 月1 日下調至3M。回購是真的，但屬於自由裁量且仍然不大：4 月和5 月各銷毀約10.3 萬美元，6 月正緩慢爬向約11 萬美元，遠低於每月20 萬美元這條線。

基本面比標題更健康。公開流傳的「7,000 萬美元ARR」這個數字，幾乎可以肯定是把訂閱續費誤當成淨新增獲客的產物；可辯護的可觀測區間更接近600 萬至1500 萬美元ARR。在這之下，traction是真實的：約13.6 萬名持幣地址、每月約990 萬次網站訪問（每天約33 萬次），新增Pro 訂閱徘徊在每天約1400 這條線附近。這是一門真實的生意，但是一門薄利的生意，其經濟性受制於它所購買的算力。

這正是Hyperbolic 處在它上面一層的原因。如果說Venice 是加油站，Hyperbolic 就是煉油廠。 Venice 從所有人都依賴的相同受限供給中購買算力；Hyperbolic 則把那部分碎片化供給聚合、標準化，再賣給Venice 以及所有像它一樣的玩家。隨著inference 需求成長，價值不僅向消費算力的應用累積，更向聚合並路由算力、並捕捉這些應用所支付的cost of revenue 的那一層累積。

為什麼這件事此刻重要

Nvidia 圍繞著「服務token」重組了財務。 Cerebras 的IPO 證明市場已經明白inference 是瓶頸。 Anthropic 為產能四處奔走，證明這是一個真實的問題。 agentic 與physical AI 將把需求放大幾個數量級，橫跨雲端與端側兩條線。

而它也從另一邊合上了「6000 億美元問題」的環。 Cahn 的看空邏輯，即過度建設、然後過剩，最終很可能會被驗證。但過剩恰恰是輕資產聚合方的最優行情：當GPU 價格下行、供給碎片化分散在數十個雲上，那個不持有任何硬體、把每一份工作負載路由到最便宜可用卡上的玩家會賺取價差，而持有不斷折舊GPU 的運營商則承擔損失。 Hyperbolic 是做多過剩，而非做空它。

最後勝出的公司，不會是擁有最多GPU 的那一家，而是能告訴你哪些GPU 在哪裡、以什麼價格可用，並把每一份工作負載路由到能以最低成本運行之處的那一家。

Hyperbolic 正在打造這樣一家公司。不自己擁有GPU，純軟體，縱深三層，但卻打造成為inference 終極算力的聚合層。