IOSG:當推理成為稀少資源,價值由誰捕獲

  • AI推理成為瓶頸:David Cahn提出的6000億美元缺口,需由推理側填補。
  • 市場覺醒:Cerebras上市受推理需求推動,推理市場為訓練規模的10-50倍。
  • Nvidia轉向:財報口徑按推理平台重組,agentic AI使tokens成為利潤,推理超越訓練。
  • 價值捕捉:推理稀缺下,Hyperbolic作為橫跨GPU租賃、部署與API三層的聚合者,不持有晶片卻整合碎片化供給,形成深度數據飛輪。
  • 應用層對照:Venice薄利推理服務受算力成本制約,Hyperbolic在其上遊提供流動性。
  • 結論:當推理稀缺,輕資產聚合方將捕捉價值,做多過剩者勝。
總結

作者|Frank Fu @ IOSG

2023 年David Cahn 提出的那個窟窿,從未在訓練側被填上。它被填入了推理側,而市場只是在過去幾週才開始把它計入定價。當英偉達圍繞「服務token」重組財報口徑、Cerebras 上市獲20 倍超額認購,瓶頸之爭已經結束,真正的問題變成了下一個:當推理成為稀缺資源,價值會沉澱在算力棧的哪一層。

跟著GPU 走:從2000 億美元問題到6000 億美元問題

2023 年,Sequoia 的David Cahn 提出了懸在整個AI 建設之上的這個問題,即「2000 億美元問題」。每花1 美元買GPU,大約還要再花1 美元在資料中心裡給它供電,因此每一年的GPU CapEx,都意味著這些晶片最終必須產生約2,000 億美元的收入才能收回這筆資本。即便對AI 收入做出非常慷慨的假設,他仍發現「投入」與「終端客戶實際付費」之間存在著一個1,250 億美元以上的窟窿。擔憂很直白:GPU 正被超前於真實需求地過度建造。

一年之後,缺口非但沒有收窄,反而擴大了。 Cahn 在2024 年的續作裡,隨著超大規模廠商CapEx 膨脹,把它重新定義為「6000 億美元問題」。看空邏輯收斂成熟悉的形狀:過度建設導致供給過剩,而過剩會燒毀資本。

兩篇文章其實都在問同一件事:誰來填這個窟窿?答案從未出現在「訓練」這一邊的帳簿上。它出現在inference(推理)這一側,而市場只是在過去這幾週才開始把它計入定價。

Cerebras IPO 與推理擠壓

Cerebras 週四上市。這次IPO 獲得20 倍超額認購,定價接近週三最終加價的兩倍。需求並非來自對「下一個Nvidia 殺手」的押注,而是源自於一件更簡單的事:市場開始意識到,在AI 中真正的瓶頸是inference,而不是訓練。

Cerebras 的看家本領,是一種讓推理極快的晶片架構。不是訓練,是推理。這正是讓華爾街興奮的點。 inference 市場是經常性的,它隨使用量擴張。每一次Claude 回答問題、每一次agent 執行任務,都在消耗算力。訓練只發生一次,推理永不停止。

JP Morgan 把inference 市場規模估算為訓練的10 到50 倍。當機器開始執行由其他機器下達的任務,即agentic(智能體)式擴張,inference 需求就不再隨用戶數擴張,而是隨算力本身擴張。

Nvidia 重畫版圖:推理成為頭條

如果說Cerebras 是市場的覺醒,那麼Nvidia 最新一季財報就是來自產業鏈頂端的確認。在最新財報電話會上,Jensen Huang 把那句心照不宣的話挑明了:AI 需求正在呈拋物線式增長。原因很簡單:agentic AI 已經到來。主流AI 已經從一次性推理,過渡到邏輯推理,再進入會自行呼叫工具、編排任務的agent 階段。 Huang 說,「Tokens 現在是有利可圖的。」在AI 時代,算力就是收入和利潤。

這重塑了整個產業。訓練是建立一個模型的一次性成本,inference 則是運行它的經常性成本,而如今的瓶頸在推理,不在訓練。

Nvidia 把這個判斷寫進了自己的財報口徑。現在它以兩個平台揭露,而非一個:Data Center(資料中心)與Edge Computing(邊緣運算)。資料中心(當季約750 億美元,年比+92%)進一步拆為Hyperscale(約380 億美元,季約+12%)及ACIE,即AI 雲端、工業與企業(約370 億美元,季報+31%)。全新的一條線是Edge Computing:64 億美元,年比+29%,涵蓋agentic AI 和physical AI 真正運作的終端,例如PC、工作站、AI-RAN 基地台、機器人和汽車。

邊緣目前仍佔總收入不到8%,但Nvidia 已將它提升到與資料中心並列的「第二平台」。這個訊號是:inference 正在分裂為兩條戰線,資料中心裡的cloud inference(雲端推理),以及邊緣側的endpoint inference(端點推理),AI 要在物理世界裡看見、移動並行動。路線圖遵循同樣的邏輯:從第三季開始出貨的Vera Rubin,推理吞吐量最高可達Blackwell 的35 倍;Huang 也為面向agentic 負載打造的Vera CPU 給出了一個全新的2000 億美元TAM。每個前沿模型公司預計都會在第一天就全面轉向它。

當地球上市值最高的公司圍繞著「服務token」重組財務披露時,瓶頸之爭就已塵埃落定。本文餘下的部分,討論的是當inference(而非訓練)成為稀缺資源後,價值由誰捕獲。

先做一個範圍說明。在這兩條戰線中,本文討論的是cloud inference,即對外提供API token 服務的、租來的資料中心GPU。 endpoint inference 跑在裝置本身內部的本地晶片上(Nvidia 的Jetson、RTX、Drive、AI-RAN),完全不經過其下的GPU 租賃與聚合棧。在這裡,請把它視為放大整個inference 經濟、佐證瓶頸論點的順風,而非Hyperbolic 和Venice 所在的市場,這兩家完全處在雲端那條線上。

擠壓已經到來

Anthropic 是煤礦裡的金絲雀。使用量遠超預先配置的產能,關於Claude 被「腦葉切除」的抱怨刷屏全網,包括被限流的回复、變慢的推理、被壓縮的上下文窗口。解法是赤裸裸的算力:2026 年5 月,Anthropic 從SpaceX 手中接管了整個Colossus 1 資料中心,22 萬+ 張Nvidia GPU、300+ 兆瓦,並將其專門用於inference,而非訓練。

這部分產能解鎖了一連串限額變動,每次都是一個訊號。 5 月6 日,Anthropic 將Claude Code 的五小時限額翻倍、取消尖峰時段限流,並大幅提高Opus 的API 速率限制。 5 月13 日,又把Claude Code 的周限額再提高50%(至7 月13 日)。隨後,從6 月15 日起,它做了與「慷慨」相反的事:把agentic 與程式化使用(Agent SDK、無頭模式claude -p、CI 流水線)從扁平訂閱中切出去,放進一個獨立計量的credit 池(每月20 至200 美元,按API 價格計費)。最後這一步把整套論點濃縮在一個動作裡:agent 消耗inference 的速度,遠超扁平訂閱的設計承受能力,因此必須按它本來的「經常性成本」來定價。

訓練是一次性的資本支出。 inference 是一項經常性的營運成本,隨每一個新用戶、每一個新agent 而複利累積。

這套棧:六層,一個瓶頸

每一個AI 應用,都坐落在一條從TSMC 晶圓廠開始、到API 端點結束的供應鏈上:

圖片圖片

大多數公司只擁有其中一層。 Nvidia 擁有矽,CoreWeave 擁有裸金屬,Together AI 擁有推理優化,OpenRouter 擁有模型API 路由。

只有一家除外。

Hyperbolic:唯一橫跨三層樓的公司

Hyperbolic 於2025 年6 月推出其按需GPU 市場。在最初幾個月裡,它的開發者數量就突破了20 萬+,採用方覆蓋前沿AI 實驗室、搜索,以及大型消費級平台。

有趣的是它的架構。

Hyperbolic 自己一張GPU 都不持有。每一張卡都來自neocloud 和資料中心,包括CoreWeave、Lambda Labs、Nebius,以及手握閒置產能的較小業者。這聽起來像是弱點,其實是護城河。

透過坐在GPU 供給方與消費方之間,Hyperbolic 能看到別人看不到的即時數據。它知道誰在以什麼價格、什麼時間買什麼GPU。它在供給過剩公開化之前就看到它,在需求飆升衝擊市場之前就看到它。

如今,護城河本身就是這套multi-cloud 聚合。 Hyperbolic 把來自數十個獨立雲端與資料中心的碎片化產能,縫合成一個標準化的統一池,讓開發者無需與每一家運營商談判、也無需管理一堆帳戶,就能在任何地方租到最便宜的可用GPU。它存取的雲越多,流動性越深,定價資料越豐富。再往後,團隊正在探索如何用這些數據來建模GPU 價格曲線,並最終投入自有資本來平滑供需,扮演物理算力的做市商角色;但這一目標仍處早期,真正在當下複利的是聚合層。

這就是飛輪:

  1. 存取更多雲→ 更多被聚合的供給

  2. 更多供給→ 更深的市場與即時定價數據

  3. 更好的數據→ 當下更聰明的路由,長期則是定價模型

  4. 更好的流動性與價格→ 更多開發者→ 更多雲想接入

沒有其他公司在嘗試這件事。 Hyperbolic 是唯一同時橫跨GPU 租賃層、部署層與模型API 層的公司。

Venice 這面鏡子

Venice 是inference 經濟體在應用層最清晰的體現,也是與Hyperbolic 所處位置的一個有用對照。它是一個隱私優先的推理應用:一套OpenAI 相容的API,加上面向消費者的訂閱(Free / Pro / Pro+ / Max),把請求路由到約75 個模型上,其中約三分之二是開源或自託管模型(Llama、Mistral、Qwen、DeepSeek),其餘是對閉源或自託管模型(Llama、Mistral、Qwen、DeepSeek),其餘是對閉源模型前沿模型的匿名透傳。關鍵在於,Venice 自己並不擁有有意義的算力。它從未公開的GPU 合作方和機密運算供應商(NEAR AI Cloud、Phala)那裡租用,並向前沿實驗室付費做透傳,所以它真正的cost of revenue 是inference 算力,而非SaaS 託管。

Venice 真正賣的是隱私。這裡說的「隱私化」不是把公共算力變成私產,而是給商品化的推理裹上一層保證:不留存資料、不拿去訓練、請求匿名化,部分負載還跑在TEE 裡,讓業者自己都看不到明文。底層算力是大路貨,加價賣的就是這層privacy 包裝。而且這層保證是分層的、並不均質:對跑在自己控製或TEE GPU 上的開源模型,能做到接近端到端的機密計算;但對跑在自己控製或TEE GPU 上的開源模型,能做到接近端到端的機密計算;但對Claude、GPT 這類閉源模型的匿名透傳,隱私只是剝離身份,前沿實驗室那端仍在處理你的原始prompt。所以最強的隱私只涵蓋開源那部分,前沿模型那部分是「匿名」而非「真機密」。 Venice 的毛利= 訂閱價− 向下游支付的inference 成本,而它能比裸API 價多收的那部分,幾乎全靠這層privacy 溢價撐著,這也是它薄利、且受制於前沿透傳定價的原因。

代幣設計把這部分inference 需求包裝了起來。 Venice 跑在兩個代幣上:VVV(質押與平台准入)和DIEM,後者是一種inference credit,每個DIEM 約等於每天1 美元的算力。付費訂閱會觸發VVV 的程式化回購銷毀(Pro / Pro+ / Max 分別約2 / 5 / 10 美元),排放則以固定時間表遞減:每月6M → 5M → 4M VVV,並在7 月1 日下調至3M。回購是真的,但屬於自由裁量且仍然不大:4 月和5 月各銷毀約10.3 萬美元,6 月正緩慢爬向約11 萬美元,遠低於每月20 萬美元這條線。

基本面比標題更健康。公開流傳的「7,000 萬美元ARR」這個數字,幾乎可以肯定是把訂閱續費誤當成淨新增獲客的產物;可辯護的可觀測區間更接近600 萬至1500 萬美元ARR。在這之下,traction是真實的:約13.6 萬名持幣地址、每月約990 萬次網站訪問(每天約33 萬次),新增Pro 訂閱徘徊在每天約1400 這條線附近。這是一門真實的生意,但是一門薄利的生意,其經濟性受制於它所購買的算力。

這正是Hyperbolic 處在它上面一層的原因。如果說Venice 是加油站,Hyperbolic 就是煉油廠。 Venice 從所有人都依賴的相同受限供給中購買算力;Hyperbolic 則把那部分碎片化供給聚合、標準化,再賣給Venice 以及所有像它一樣的玩家。隨著inference 需求成長,價值不僅向消費算力的應用累積,更向聚合並路由算力、並捕捉這些應用所支付的cost of revenue 的那一層累積。

為什麼這件事此刻重要

Nvidia 圍繞著「服務token」重組了財務。 Cerebras 的IPO 證明市場已經明白inference 是瓶頸。 Anthropic 為產能四處奔走,證明這是一個真實的問題。 agentic 與physical AI 將把需求放大幾個數量級,橫跨雲端與端側兩條線。

而它也從另一邊合上了「6000 億美元問題」的環。 Cahn 的看空邏輯,即過度建設、然後過剩,最終很可能會被驗證。但過剩恰恰是輕資產聚合方的最優行情:當GPU 價格下行、供給碎片化分散在數十個雲上,那個不持有任何硬體、把每一份工作負載路由到最便宜可用卡上的玩家會賺取價差,而持有不斷折舊GPU 的運營商則承擔損失。 Hyperbolic 是做多過剩,而非做空它。

最後勝出的公司,不會是擁有最多GPU 的那一家,而是能告訴你哪些GPU 在哪裡、以什麼價格可用,並把每一份工作負載路由到能以最低成本運行之處的那一家。

Hyperbolic 正在打造這樣一家公司。不自己擁有GPU,純軟體,縱深三層,但卻打造成為inference 終極算力的聚合層。

分享至:

作者:IOSG

本文為PANews入駐專欄作者的觀點,不代表PANews立場,不承擔法律責任。

文章及觀點也不構成投資意見

圖片來源:IOSG如有侵權,請聯絡作者刪除。

關注PANews官方賬號,一起穿越牛熊
PANews APP
火幣HTX近24小時資金淨流入居全球CEX第二
PANews 快訊