作者:李剛,騰訊研究院
近期部分媒體爆出微軟收回內部Claude Code許可1。Claude Code是Anthropic推出的AI編程工具,在微軟內部開放僅6個月就成為最受歡迎的輔助開發軟體之一,隨之而來的是token消耗劇增,成本暴漲,但產出品質不盡如人意。多重考量下,微軟踩下剎車,將員工導向自家的Copilot CLI。
Token消耗與實際產出不成比例的現象在其他平台企業也普遍存在。Uber僅用4個月就耗盡了2026全年AI編程工具預算;亞馬遜部分員工無意義消耗token;Meta悄悄撤下內部員工的Tokenmaxxing排行榜,不再鼓勵無產出的token消耗2。人人都在擁抱AI,但還沒有找到正確的姿勢;企業都在強調AI原生,但(暫時)沒看到收益,只看到越來越長的帳單。我稱之為「token不經濟」。
Token不經濟是企業內部管控不力、token使用回報有限、Agent本身的架構設計(如Skill重複調用、長程任務的內耗、多智能體協同成本)等多重因素互相疊加的結果。未來,這些問題可能會隨著內控的精進、技術面消耗不斷優化而逐步緩解。但若要將token淨收益轉正,則不僅需要從供給端入手優化Token成本,還需要從需求端入手,解決如何讓Token消耗在廣泛的產業場景中產生實際價值的難題。
好貨不便宜
過去兩年,主流大模型快速迭代,開發企業根據自身市場定位採取不同產品組合策略,API調用價格($每百萬token)隨之改變。模型性能大幅提升,但好貨不便宜,同一分層產品的調用價格也在悄悄提升,成為推高下游使用者token消耗成本的重要原因。
(一)領導者的分層策略
Anthropic 是閉源模型廠商中最早認識到編程是token變現核心場景的公司。大模型的主要付費用戶是開發者和企業技術團隊,他們對價格不敏感,更看重模型的編碼效率和品質。掌握編程這一商業場景的先機,就可以實現token溢價。因此Anthropic在研發上專注編程。在確立編程能力優勢後,自2024年初推出 Claude 3 系列起,在業內率先採用旗艦-中端-輕量的立體產品組合,實現同代模型分層定價,同時搶佔高端和大眾市場。
- Opus系列定位為編程業界標竿,以 $15/$75(輸入/輸出百萬token價格,下同)的定價錨定高端市場;
- Sonnet系列($3/$15)為日常編程和辦公任務提供高性價比選擇;
- Haiku系列($1/$5)面向輕量、快捷互動場景,價格親民。
這種精細的層級劃分使 Anthropic 能夠在每一價格帶最大化利潤提取,同時保護市場份額。這一定價策略讓作為技術領導者的Anthropic的競爭手段更多、操作更靈活。
例如,在覺察到與競品性能差距快速縮小後,藉Opus4.5發布大幅降價,擠壓競品市場空間。
再如,隨著新一代模型Mythos Preview($25/$125)發布,在Opus上置入新的超高端分層,抬升了旗艦產品價格,逆轉之前高端產品不斷降價的趨勢。隨後發布的 Fable 5 採用同一底層架構,以安全為由對部分功能進行限制,採用 $10/$50 的價格(仍是Opus系列的兩倍)面向更廣泛市場。
不僅按性能定價,更按安全約束的鬆緊程度定價,形成能力分層、風險分層、定價分層的三維定價策略,重新拿回溢價市場。這一定位策略的效果在2025年至2026年間得到了充分驗證。Anthropic 的年度經常性收入(ARR)從2024年底的約10億美元飆升至2026年5月的約450億美元3。
更重要的是,這一策略充分保護了作為產品力領導者的市場溢價,依靠性能優勢跳出卷價格的窠臼,完成好貨不便宜的價值閉環。
(二)追趕者的價格拉扯
相比之下,OpenAI 和 Google 在大模型商業化的早期階段選擇了與Anthropic不同的多元化路徑。
- OpenAI 在2024年曾將大量資源投入 Sora等多模態項目;
- Google 則圍繞 Gemini 構建了覆蓋搜尋、雲端服務、Workspace 等多條產品線的生態策略。
這些投資雖然拓展了技術版圖,卻因資源被分散,在辦公和編程場景上表現相對並不突出。當意識到編程才是模型能力變現的主戰場,返身再來追趕時,已經失去先手優勢。OpenAI 的返身非常堅決。
- 一方面重新聚焦編碼和 Agent 能力,砍掉 Sora等消耗巨大項目;
- 另一方面,跟隨Anthropic建立自己的分層產品矩陣,一對一緊逼盯人,同時刻意拉大旗艦模型和輕量模型的價差,旗艦高價守住領先模型的招牌,輕量低價搶奪市場份額。
GPT 5.5 的定價($5/$30)與Opus 4.7/4.8($5/$25)看齊,建立與 Claude Opus 同等的高端價格錨點,次級模型GPT 5.4 mini ($0.75/$4.50)和nano ($0.20/$1.25),大幅低於同級 Claude Haiku 4.5 ($1.00/$5.00),以價格換市場。
Google 是安卓生態體系的核心,已經有完整的商業閉環,需要處理的關係更為複雜,動作也更謹慎。Gemini 需同時服務於 Google Cloud 的企業客戶、Workspace 的生產力用戶、以及搜尋產品的消費者體驗。即便意識到編程的重要性,也無法決然將資源全部聚焦於編程和辦公,還是要走多模態、多元化路線。Google也是緊隨Anthropic從1.5代 Gemini開始將產品分為旗艦Pro系列和輕量Flash系列,但產品迭代速度相對較慢,價格定位更低。
- 2024年初的旗艦模型Gemini 1.5 Pro在短prompt(<128k)情形下輸出百萬token價格僅為5美元,是同期GPT-4o的三分之一,Opus 3的十五分之一;
- 2026年2月發布的Gemini 3.1 Pro百萬token輸出價格提升至12美元,顯著低於同期GPT 5.4的15美元和Opus 4.6/4.7的25美元。
不僅如此,Google還搞了一個反向操作,在輕量產品線Flash下面加入超輕量產品線Flash-Lite,將調用價格壓到與開源模型同樣的水平線,這是典型的以價換量。而被市場殷切期盼的 Gemini 3.5 Pro 遲遲未能正式發布,也反映出 Google 在平衡性能、安全性和生態適配方面面臨的內部博弈。新一代旗艦模型的定價策略,也被市場高度關注。圖1:旗艦模型定價變化趨勢Claude 系列及 GPT-4o/4.1/5.4 的定價來自官方定價頁;GPT-5.5 系列、Gemini 3.5 Flash 的定價來自 OpenAI/Google 平台及第三方彙總;GLM 系列定價基於海外 Z.ai 平台,具體價格受匯率波動和雙軌定價影響。繪圖:Codebuddy
(三)次級/輕量和開源/半開源模型市場在需求爆發中默默漲價
旗艦模型拼性能,次級/輕量模型卷價格,是市場競爭理所應當的正確姿勢。面對激烈的市場競爭,一般預期是市場價格中樞會不斷下降。但實際情況卻恰恰相反,由次級/輕量-開源/半開源模型構成的經濟型token市場,價格中樞在過去兩年悄然上移,而token市場價格地板的真正抬升正是在這樣的上移中完成的。表面上看,這是一片殺瘋了的紅海。
Sonnet、mini、Flash等收費低廉的次級/輕量模型是主流閉源模型面向大眾市場的經濟實惠裝,主要目標是搶奪市場份額。
與此同時,DeepSeek、Qwen 和 GLM 等開源或半開源模型迅速崛起,普遍採用旗艦定位、次級/輕量定價的策略,給次級/輕量閉源模型市場帶來持續的價格壓力。2024年底,DeepSeek V3 以約 $0.27/$1.10 的定價切入市場,遠低於同級閉源模型。稍後推出的R1 以 $0.55/$2.19 的價格提供推理增強能力,直接壓縮了 GPT-4.1 mini 和 Claude Haiku 的定價空間。GLM-4 Plus 以僅 $0.69/$0.35 的價格提供接近 GPT-4 級別的能力,對價格敏感的開發者群體構成了極大的吸引力。
卷價格似乎是這一分層市場的常態。但另一方面,每一代次級/輕量和開源/半開源模型的推出,都伴隨著價格地板的抬升。
- 例如2024年10月推出的Haiku 3.5,輸入/輸出定價為$0.80/$4.00;
- 一年後Haiku 4.5的定價上浮20%到$1.00/$5.00。
差不多同一時間,GPT mini系列定價幾乎翻番,從 4o mini的$0.15/$0.60上浮至4.1 mini的$0.40/$1.60。Gemini Flash系列也同樣,從2.0 Flash的$0.10/$0.40超低定價,上浮至2.5 Flash的$0.30/$2.50,百萬token輸出定價翻了6倍還多。開源/半開源模型如GLM 系列,GLM-5 在海外市場的定價較 GLM-4.7 提升了約67%到100%。用智譜自己的話,這次大幅提價,顯示出國產模型的技術能力和市場競爭力正在快速提升。
產生這一現象的根本原因是經濟型token消費量的爆炸式增長。大多數日常編碼任務、文檔處理和自動化流程並不需要 Opus 或 GPT-5.5 級別的能力,而是由 Sonnet、mini、Flash 等模型承擔,或交由開源/半開源模型完成。隨著 AI 編碼助手、Agent 工作流和企業級 AI 應用的普及,這些次級/輕量-開源/半開源模型的調用量激增,遠超旗艦模型。
- 一方面,這使得經濟型模型消耗快速上升,燒現金維持低價的遊戲無法持續;
- 另一方面,這也為廠商開拓了提價空間,漲價的同時需求仍在快速增長。
因此,即便是在經濟型token市場,競爭邏輯也從哪家token更便宜轉向哪家token性價比更高。不論是Claude Sonnet/Haiku、GPT mini/nano、Gemini Flash,亦或是DeepSeek、Qwen、GLM系列,都出現定價中樞抬升的趨勢。從上面的分析大概可以看到,token市場正在經歷一個高端定價格局固化、中端量價齊升、經濟型跟隨追漲的整體抬升過程。
Anthropic 憑藉編碼能力領先建立了行業最強的定價權,OpenAI 和 Google 正在加速追趕但短期內仍需以價換量,而開源/半開源模型在持續抬升定價地板的同時也開始分享市場增長的紅利。
這一格局的演變將深刻影響整個 AI 產業的利潤分配和競爭態勢。在消耗大增、單價上漲的token 市場,與模型廠商收入爆發相對應的,必然是下游token使用者的成本攀升,是終端消費token不經濟的底層原因。圖2:次級/輕量和開源/半開源模型定價趨勢Claude 系列及 GPT-4o/4.1/5.4 的定價來自官方定價頁;GPT-5.5 系列、Gemini 3.5 Flash 的定價來自 OpenAI/Google 平台及第三方匯總;GLM 系列定價基於海外 Z.ai 平台,具體價格受匯率波動和雙軌定價影響。繪圖:Codebuddy
智能體的隱形消耗
token越來越貴固然傷及荷包,更讓人心疼的是不少token在調用智能體(Agent)幹活時被系統性地浪費掉了。上下文陷阱(Context Trap)、分詞器黑箱(Tokenizer Black Box)、技能冗餘(Skill Redundancy)、以及多Agent協同中的溝通稅與長程熵增(Communication Tax and Entropy Drift),這些結構性的跑冒滴漏疊加在一起,構成了token不經濟的內部技術根源。
(一)上下文陷阱
模型推理需計算每個token和其他token的關係,因此上下文越長,計算負擔越重,token消耗越多。同樣一個問題,沒有頭尾的丟給Agent,消耗不了幾個token。但如果是帶著歷史對話、工具日誌、代碼文件、報錯信息和多輪討論,輸入token的消耗可能多出幾個數量級。
而Agent架構天然放大長文本陷阱。智能體會將問題拆解,規劃調用工具,讀文件,檢查反饋,修改方案,再調用工具,循環往復,每一步都可能把歷史記錄重新帶進上下文。同一批信息被反覆讀取,同一個任務被反覆計費。Salim et al.,(2026)對ChatDev框架的分析發現,代碼審查階段(Code Review)消耗的token平均佔總消耗的39.5%,是所有開發階段中最高的4,這意味著近四成的token花費在了Agent之間反覆傳遞已有信息的過程中,而非真正生成新內容。圖3:對ChatDev框架30個任務中各階段Token消耗佔比的分析 Salim, et al., (2026). Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering. Proceedings of the Mining Software Repositories Conference (MSR).
(二)分詞器黑箱
分詞器(Tokenizer)是大模型訓練的基礎,決定同等參數量下模型的信息密度上限、有效上下文長度下限和邊緣case(數字/代碼/多語種)的可靠性。分詞越合理,模型訓練和推理就越高效、穩定。開源/半開源模型的分詞器和權重通常是公開的,而閉源模型的分詞器是「黑箱」,分詞器的更新換代往往伴隨著token密度的變化。
2026年4月Anthropic發布Opus 4.7的同時,更換了底層分詞器。根據Anthropic官方文檔披露,分詞器調整主要考慮模型訓練的實際需求,為提升性能採用更細粒度的子詞分割方案,副作用是同樣長度的文本,token數量膨脹了1.0倍至1.35倍13。多家獨立測試機構的結果顯示實際膨脹倍數更高。企業AI成本管理平台Finout針對真實企業prompt的加權實測顯示,技術文檔與英文密集代碼文件的平均膨脹率達到1.47倍(+47%)14;ClaudeCodeCamp對七種真實文件類型的綜合測試結果為平均1.325倍(+32.5%)15;開發者Simon Willison通過API直接比對發現,同一份系統提示詞在新分詞器下從5,039 tokens膨脹至7,335 tokens(+46%),而高分辨率圖片的token膨脹更是高達3.01倍(+201%)16。
更早之前,OpenAI在發布GPT-4o時將分詞器從cl100k_base升級為o200k_base,詞表規模擴大了近一倍,官方說明此舉旨在提高壓縮率並增強多語言處理能力17。然而,詞表膨脹本身並不意味著同等文本的token計數減少,實際上對於非英語內容(尤其是中文、日文等CJK字符),新分詞器的切割粒度變化可能導致token數不減反增。關於更細顆粒度的分詞是否能提升模型表現,目前尚缺乏來自模型廠商的系統性公開論證。
Anthropic在Opus 4.7的變更文檔中將新分詞器歸入Breaking Changes條目,僅描述了事實層面的變更(更細粒度的子詞分割),未詳細解釋技術動因或性能收益。社群中有研究者指出,更細的分詞理論上可以豐富模型的詞彙表徵能力,尤其有利於代碼理解和結構化數據處理(JSON、XML等格式在Opus 4.7中觸及了最高的1.35倍膨脹上限),但這種潛在的性能增益是否足以合理化近50%的成本增幅,是一個懸而未決的問題13。分詞器迭代頻率明顯低於模型更新,但事關token的最基本計費標準,且變化隱藏在技術細節之中,普通使用者幾乎不可能察覺。閉源模型對分詞器更是諱莫如深,有可能成為加重token不經濟的原因之一。(
三)技能的無意義調用
技能(Skill)是讓 Agent 架構更專業的關鍵工具之一。有人把技能看成是長一點的 markdown,有人把技能當成一個裝了各類參考文獻和操作說明的資料夾,也有人把技能理解為一段超長的結構化 prompt。在實際的推理和 Agent 任務中,很多技能過長過雜,加大了 token 消耗。Gao et al.,(2026)對 55,315 個公開技能的大規模實證研究揭示了技能的無效加載是如何浪費 token 的5。在路由層面(即 Agent 決定是否調用某個技能的環節),高達 26.4% 的技能完全沒有路由描述,像一本本沒有目錄的工具手冊,大大增加被 Agent 無效加載的機率。在正文層面,超過 60% 的技能內容不是可直接執行的操作規則,而是背景解釋或示例文本,使用技能的大部分 token 花在了閱讀說明書而非幹活上。更嚴重的是,部分技能會密集引用檔案,單次調用就會注入數萬乃至十餘萬 token,其中可能只有很小比例與當前任務相關。Han et al.,(2026)的 SWE-Skills-Bench 基準測試進一步證實了技能效用的有限性6。該研究在真實 GitHub 專案上測試了 49 個公開軟體工程技能,結果顯示 39 個技能(79.6%)沒有帶來通過率的任何提升(有技能和無技能的 Pass 率相同),全部 49 個技能的平均效用增量僅為可憐的 1.2 個百分點,然而 token 開銷最高增加了 451%。僅有在編碼特定領域專業知識的 7 個技能(如金融風控公式、雲原生流量管理、GitLab CI 模式)帶來了有意義的效能提升(最高提升 30 個百分點);更有 3 個技能因版本衝突導致效能下降(最高下降 10 個百分點)。這說明技能的效用高度依賴場景匹配度,盲目調用只會徒增成本。(
四)多Agent的廢話與長任務的跑偏
多Agent是目前受青睞的工作方式,讓使用者一個人領導一個由AI構成的團隊,寫程式碼的、審查的、測試的、修復的,多個Agent各司其職,互相監督,在很多情況下確實提高了輸出品質。但機器之間也會開無效會議,對話中不斷重複已經討論過的任務背景、之前的結論、格式化套話,每重複一次,就再消耗一遍token,Salim et al.,(2026)稱之為多Agent系統的溝通稅(communication tax)4。此外,將複雜的長程任務(long task)交由多Agent系統完成,正在成為程式設計和辦公的主流做法,並逐漸擴展到餐飲、出行等日常生活的場景。長程任務本身就存在容易跑偏的問題。此類任務的上下文裡塞滿工具輸出、報錯、草稿、日誌,很容易造成模型推理逐漸偏離目標。為了糾偏,開發者往往會要增加摘要、記憶、檢查、回滾等機制,帶來更多token消耗。Luo et al.,(2026)在對TabTracer研究中觀察到,傳統鏈式推理在路徑過長時容易陷入循環狀態,對抗性注入可以故意觸發這種循環,使Agent在錯誤路徑上反覆消耗token而不自知7。這種維持穩定所需的額外消耗通常被稱為熵稅(entropy tax),系統越複雜,Agent越自由,越需要監督,任務越長,上下文越大,熵稅增長越快。一個看似高效的Agent團隊,token帳單中可能有超過一半花在了內部協調與自我糾偏上。上下文陷阱、分詞器黑箱、技能的無意義調用、廢話文學和長任務跑偏,這些因素疊加在一起,對token消耗的效果不是簡單的加和,而是乘積性的指數增長。
更值得注意的是,這些技術性損耗對不同使用者的影響是不對稱的。具備技術背景的開發者可以透過調整系統提示詞(System Prompt)、裁剪技能內容、設定上下文視窗管理策略等方式在一定程度上緩解這些問題,但對於缺乏技術背景的普通企業使用者而言,他們既不理解Agent內部的token流轉機制,也無法有效干預其行為模式,只看到帳單上的數字在不斷增長,卻不知道錢究竟花在哪裡、為什麼花了那麼多。
在這個意義上,token不經濟不僅是一個技術效率問題,更是一個技術平權問題。AI工具的使用門檻,從會不會寫程式碼變成了能不能理解Agent架構的成本動力學。現實中大多數智慧體的使用者並不具備相關技術背景,被置於結構性劣勢之中。
尋找真實的需求
比起定價、無效消耗等種種供給端的問題,應用端的侷限性是造成token不經濟的更重要的原因。儘管模型效能在過去兩年取得了令人矚目的進展,但token的通用性仍然相當有限。目前的token的使用大都侷限在數位化水準較高的場景中,比如程式設計輔助、文件處理、資料分析。
跳出這些優勢部分,大模型效能會隨著應用場景數位化水準下降而急劇衰減。到了數位化程度極低的線下服務業態,如餐飲、家政、零售終端、現場維修,token能夠獨立完成的任務都侷限在已經高度數位化的流程管理部分,很難實際參與現場操作。這不是說AI永遠無法進入這些領域,而是說當前的純語言模型範式(token-in, token-out)與現實世界之間存在著一條結構性鴻溝。
這一問題在行動網際網路時代就存在,是數位技術未能從根本上改變第一和第二產業的根本原因。人工智慧的發展為跨越這條鴻溝提供新的可能,科學智慧(AI for Science)、世界模型(World Model)、機器人系統等基礎性研究正在取得進展。
過去兩年諾貝爾物理學獎和化學獎被授予人工智慧科學家,Figure、Tesla Optimus、宇樹等人形機器人取得顯著進展。但在這些前沿領域目前仍處在實驗室階段,在取得劃時代的應用層突破之前,token大概會持續困在高度數位化場景中。
(一)程式設計是通用的特例
程式設計是目前大語言模型表現最好的應用場景,但這一場景並不具有普遍的代表性,更準確的描述是具有通用性的特例。通用性是說,程式設計輸出的是Agent的通用語言,可以在數位化基礎較好(流程和文件已經數位化並由演算法驅動)的場景中,直接驅動不同類型的Agent協助完成多種多樣的任務。
從這個角度看,Anthropic專攻程式設計的Claude Code,以及Open AI的GPT Codex成為目前市場上最受歡迎的Agent產品並非偶然。特例是指程式設計場景在模型的後訓練環節具備極大優勢,一是確定的訊號回饋,模型生成的程式碼跑一遍,編譯器、解譯器、單元測試立刻可以給出精準、結構化、毫無歧義的對錯判斷,二是在這樣的自動訊號回饋基礎上,可以高效形成自動的後訓練閉環,將回饋毫無阻礙地接進強化學習迴路,智慧體在數位沙盒裡高速生成、報錯、自我修正。這樣的自主訓練環境在其他場景中很少見,甚至基本不可能形成。
一旦離開程式設計,模型訓練的效率會大幅降低。在數位化程度相對較低、無法形成自動後訓練閉環的傳統商業世界,如管理決策、法律談判、臨床醫療、供應鏈物流,資料採集和結果驗證成本會吃掉任何token經濟。拿不到低成本的回饋訊號的智慧體,也就無法完成指數級自我進化,難以重複其在程式設計上的巨大成功。2023年2月,A&O Shearman(原Allen & Overy)率先與法律領域的垂直大模型公司Harvey AI達成獨家戰略合作,將後者開發的AI法律助手部署在前者遍佈全球43個辦公室18 。
在為期數月的試用期內,A&O Shearman在全球的3,500餘名律師向Harvey提交了約40,000次查詢請求,涵蓋合約起草、法規檢索、盡職調查等多項法律工作流程,確實提高了工作效率19。硬幣的另一面,A&O Shearman在其官方新聞稿中明確指出,Harvey AI生成的所有輸出都需要經過執業律師的仔細審查後方可使用18。AI並未真正替代律師的專業判斷,僅在原有工作流程之上新增了一個AI初審環節。
資深合夥人在接受AI標註後的合約草案時,投入的複核時間幾乎等同於從頭審閱原始合約所需的時間。當然,人工審核的結果回饋是後續模型訓練的高價值資料,但這樣的回饋成本顯然較程式設計這樣的自動閉環高出太多。不能排除未來當回饋資料積累到某一臨界點,智慧體在現實場景的表現會大幅提升,逼近甚至超越專業人士的水準。但與程式設計相比,這一臨界點的來臨還有相當長的路要走。
(二)向物理世界的艱難跨越
法律工作任務的主要內容仍然是大量文字處理,是一個數位化水準較高且肯定會被高度數位化的場景。當工作任務中可被數位化、可以從數位世界中直接控制和操作的成分降低,智慧體能夠完成的任務比例也會隨之降低。雖然現實世界的設施大多由軟體驅動,但單純依靠智慧體寫程式碼來控制物理世界,仍然面臨巨大的障礙。
以人形機器人(humanoid robot)的發展為例,雖然已經在馬拉松比賽中超越了人類最好成績,但人形機器人在大部分現實世界的任務仍在艱難掙扎。清潔、搬運、開門、穿越雜亂場景,這些對人類來說輕而易舉的動作,對機器人而言卻是巨大挑戰。
所以Moravec(1988)講「讓電腦在智力測驗或下跳棋中表現出成人水準的成績相對容易,而要賦予它們一歲幼兒的感知與行動能力卻極其困難,甚至不可能。」
(It is comparatively easy to make computers exhibit adult-level performance on intelligence tests or playing checkers, and difficult or impossible to give them the skills of a one-year-old when it comes to perception and mobility),接近四十年後的今天,這句話的含金量仍在上升23 。
李飛飛在長文《From Words to Worlds》中,把空間智能與具身智能列為需要更長時間才能成熟的中期目標8。原因在於,現實世界沒有編譯器,物理世界不接受迭代,只接受驗證,而驗證的成本永遠比生成的成本高。曾被寄予厚望的模擬技術雖然起到一定效果,但要實現類似Agent自適應在程式設計場景中的效能,還有很長的路要走。模擬技術是為了繞開物理世界沒有編譯器的難題,用數位孿生和物理引擎搭一個虛擬驗證空間。但具身智能發展還是撞上了虛擬與現實鴻溝(Sim-to-Real Gap),在簡化沙盒裡靠海量Token練出的最優控制軌跡,一碰上真實世界的摩擦、材料疲勞和環境噪聲,立刻變得極其脆弱。Aljalbout et al.,(2025)認為模擬到現實的差距並非單一問題,而是由動力學差異、感知失真、執行器非線性、系統設計缺陷等多個子差距疊加而成,完美模擬器在計算上不可行20。
此外,模擬訓練策略往往會利用建模中不準確但確定的邊界條件獲得虛高的性能表現。但若部署到真實環境,這些策略往往並不可靠,甚至會帶來風險。例如 OpenAI 的 Dactyl 靈巧手項目,用 64 塊 NVIDIA V100 GPU 和 920 台 32 核 CPU 伺服器在模擬中累積了相當於 13,000 年工作量的訓練經驗,使機械手操作方塊達到極高的成功率 21。但靈巧手在面對真實世界中非預設的材質、溫度和磨損變化時,強健性迅速下降。
2021 年,OpenAI 解散了整個機器人團隊。聯合創辦人 Wojciech Zaremba 在解釋這一決定時表示,資源需要轉移到更容易取得成就的領域 22。儘管官方未將 Sim-to-Real Gap 列為主因,但業界普遍認為,模擬訓練的高昂算力成本與真實部署的不確定性之間的矛盾,是促使 OpenAI 放棄機器人方向的重要因素之一。
在真實的物理世界驗證模型表現,時間和資本成本比虛擬世界高出幾個數量級,而這樣的真實測試是無法被取代的。這種不對稱的驗證成本從一個側面說明了程式設計場景的特殊性,演算法不是萬能的,token 也不是。如果 token 的有效應用範圍長期侷限於程式設計和少數數位場景,始終無法跨越從數位世界到物理世界的鴻溝,AI 產業化和產業 AI 化的可持續性就要打一個大大的問號。
Token 經濟的未來,取決於我們能否把 token 的有效射程從數位孤島拓展到更廣闊的真實世界。在物理世界的真實需求爆發之前,token 不經濟可能會持續很長時間。
Token 不經濟的溢出風險
Token 不經濟在整個 AI 產業鏈條上的分佈並不均衡。上游基礎設施和硬體廠商在當下的固定資產投資熱潮中賺得盆滿缽滿;中游的模型廠商仍在比拼產品性能,高昂的資本支出擠壓現金流;下游應用效果因人而異,因場景而異,大部分企業仍在持幣觀望。產業鏈風險在向中游聚集,而中游的模型廠商正在資本市場建立起一個個循環融資的小圈子。持續累積的 token 不經濟風險一旦爆發,必然會牽動金融市場,甚至影響民生穩定。
(一)產業鏈風險的不均衡分佈
Token-Agent 熱潮拉動巨額資金投向上游的資料中心、網路和晶片製造,以及電力和能源基礎設施。台積電 2026 年資本支出預計達 520 至 560 億美元 9,微軟、Alphabet、亞馬遜與 Meta 在 2025 至 2026 年的 AI 基建投入合計遠超 3000 億美元並向逼近 7000 億美元的量級攀升 10。中游的大模型廠家是本輪 AI 投資浪潮的發動機、所有有關 AI 樂觀預期的錨點、「全村的希望」。但主要廠商雖然營收爆發增長但仍深陷虧損,算力採購成本居高不下。OpenAI 預計要到 2030 年前後才可能盈利 11。而下游真正在用 Agent 幹活、真正在燒 token 的企業用戶已經開始控成本。畢竟尚未看到合理回報,那麼為 token 設預算上限、做成本歸因、收緊使用許可,都是順理成章的管理動作。我們對比了 AI 產業鏈上下游具有代表性的上市公司過去兩年的自由現金流(FCF=經營性現金流 - 資本支出)變化和最近一年的淨利潤率(圖 4)。
2025 年,處於產業鏈上游的台積電(44.5%)和輝達(55.6%)不僅淨利潤率更高,自由現金流更取得 14.5% 和 58.8% 的高速增長。相比之下,處於產業鏈下游的亞馬遜、微軟和 Meta 雖然淨利潤率與往年持平甚至有所提升,但自由現金流分別下降了 76.6%、14.8% 和 3.4%,主要是受到資本支出大幅上升的影響。
Token 金礦尚未探明,挖金子的還在投錢,而賣鏟子的已經賺得盆滿缽滿。這樣的情況在歷史上多次重演。產業革命初期,隨著新技術興起,需求先在投資端和產業上游爆發,中游巨額資本支出變成上游的巨大利潤,而下游的最終消費方興未艾,尚不足以支撐中游企業的產能擴張。風險向產業中游匯聚,資本與產能跑在真實付費需求之前。
- 短期看,估值回調、產能閒置、部分參與者出局幾乎難以避免;
- 長期看,只要底層需求最終成形,超前建造的資料中心、晶片與網路還是會有用武之地,成為支撐經濟增長的生產力底座。
對於社會大眾和監管者來說,需要防範產業鏈風險透過金融市場向外傳導,風險外溢導致的經濟大幅波動。圖4:AI 產業鏈上下游自由現金流增速與淨利潤率對比(FY2025—2026) 數據來源,各公司年報,10-k SEC filing。繪圖:Codebuddy
(二)循環融資與影子信貸
產業鏈風險向中游模型廠商集中,而部分中游的模型廠商與上游硬體企業玩起循環融資(circular financing),讓人看不透到底是技術驅動的真實增長,還是資本自循環支撐的估值遊戲。例如 OpenAI 與輝達、甲骨文組建的「AI 永動機」,先由 Open AI 接受輝達策略投資(原本承諾投資 1000 億美元,後轉為 OpenAI 新一輪融資的參與者,投資額也大幅縮減),再由 OpenAI 用融得資金向甲骨文購買雲服務(兩家簽署為期 5 年總價值約 3000 億美元的算力購買合約),最後甲骨文把 OpenAI 的付款承諾用於增信,發債融資向輝達購買 GPU 用於算力中心建設,完成資金閉環。
每一步似乎都有合理的商業邏輯,但每一步都讓人覺得過於「超前」。
OpenAI 的算力採購框架加總起來已突破 1 兆美元,與其當下 330 億美元的年化營收(截至 2026 年 5 月 ARR)不匹配,完全是基於對未來高增長的預期 26。
一旦下游 token 終端消費不能帶來模型廠商收入的指數級增長,「承諾」就會變成「泡沫」。而 token 終端消費的預期似乎並不樂觀,據 Bain & Company 的測算,要消化掉到 2030 年新增的 200GW 算力,終端消費需要創造出每年約 2 兆美元的新增營收。但即便算上 AI 帶來的成本節約,仍有約 8000 億美元的缺口 12。這樣的循環融資遊戲在世紀之交的網路泡沫時代也出現過,但今天的估值泡沫有一半藏在不透明的私人信貸(private credit)市場裡,更難確切掌握潛在風險。
聯準會升息抬高初創企業、槓桿收購等高風險債券市場利息,銀行在巴塞爾協議要求下不得不退出這一市場,為私募機構留下空間,最終催生出一個規模約 3 兆美元的美國私人信貸市場。Apollo、Ares、Blue Owl、KKR、Blackstone 等資管機構用 BDC(商業發展公司)和直接貸款為資料中心建設提供 20-30 年期的槓桿融資。這些貸款往往是通過私下談判達成,用模型來定價的(mark-to-model),可能出現期限錯配(為 LLM 這樣按月迭代的技術匹配未來 30 年現金流),同時因模型廠商缺現金,因此往往是實物支付利息(PIK,利息直接滾入本金),風險疊加且不易覺察。國際清算銀行的一份報告講到,目前在股權一級和二級市場已經把 AI 產業鏈的上行空間充分定價,但債務市場還沒把下行風險定價進去 25。
一旦下游需求釋放緩慢,營收不及預期,循環融資的估值邏輯將瓦解(股權壓縮),私人信貸裡的模型被迫重估(信貸減值),泡沫破裂、股債雙殺的風險驟增。
(三)資源飢渴擠壓其他需求
Token 消耗催生的算力擴張,算力中心對水、電等資源極度飢渴,往往在短期內製造出巨大的供給缺口,對所在地的民生用水用電產生擠壓效應。美國維吉尼亞州北部的資料中心巷(Data Center Alley)集中了全球密度最高的資料中心集群,承載了約 70% 的全球網際網路流量。由於地方電網容量被科技公司用長期躉售協議提前鎖定,居民和傳統商業的能源配額被嚴重壓縮。
據維吉尼亞州聯合立法審計與審查委員會(JLARC)2024年12月發布的報告,資料中心的耗電量已經超過了維吉尼亞州最大核電廠發電量的兩倍以上,僅滿足勞登縣(Loudoun County)已規劃或在建資料中心的能源需求,就需要在2030年前向電網增加相當於數座核電廠的發電能力。資料中心對高壓輸電線路和清潔能源的瘋狂搶購,迫使地方公用事業公司斥巨資升級電網。Dominion Energy計劃在未來十五年內投資數十億美元用於電網擴容。這筆巨額基建成本最終將以電網維護費、容量費用等形式攤派到居民月度帳單上。Dominion服務區域內的容量拍賣價格已從29美元/MW-天飆升至444美元/MW-天,漲幅超過1400%,直接反映了電網發電和輸电容量的嚴重稀缺24。皮德蒙特環境委員會(PEC)對Dominion Energy綜合資源計劃(IRP)的分析顯示在該計劃覆蓋期內,普通居民的電費帳單可能翻倍。算力擴張對日常需求的擠出效應不僅限於維吉尼亞,愛爾蘭都柏林、新加坡裕廊、我國貴州等全球主要算力節點都曾經歷過類似矛盾。從這個意義上說,token不經濟不僅存在於數位世界,在現實生活中也投下長長的陰影。
尋找Token價值方程式
Token是智慧時代的最基本的生產要素之一。與其他所有生產要素如土地、數據、資本、人力一樣,只要存在資源錯配、要素浪費,就必然會有所謂「不經濟」的存在。從這個意義上說,token不經濟不會只是AI產業鏈爆發初期的暫時現象,而是與token經濟並存,貫穿在智慧經濟發展的始終。
在具體的當下,token經濟尚未完全展現,因此token不經濟相對較為突出。始終存在並不意味著要放任自流,可以從供給和需求兩端施力,降低token不經濟,強化token經濟,讓技術的發展真正轉化為實在的經濟價值。
- 供給側可以透過精細化技術手段降低單位token成本,堵住跑冒滴漏,防止風險擴散;
- 需求側可以透過不斷發掘新的應用場景讓 token花出價值來。
當供給端的成本下行曲線與需求端的價值上行曲線形成交叉,token經濟和不經濟互相抵消後的淨收益便可由負轉正。
(一)技術面的精細化變革
上下文緩存與語義壓縮。上下文緩存(Context Caching)已經成為模型廠商的通用做法,當多智能體流水線頻繁命中歷史緩存時,輸入token的計費大幅壓減。但這一做法也有局限性,在複雜企業級部署中,由於Agent路徑高度分叉導致的緩存色散失效,實際成本節省的效果相對有限。更根本的解法在於上下文壓縮,不是簡單地滑動截斷歷史資訊,而是進行語義層面的主動壓縮,保留關鍵指令和推理鏈路,去掉重複與冗餘。這種語義上下文壓縮(Semantic Context Compression)能夠在保護指令遵循率的同時,顯著減少輸入Token的消耗。
技能優化與減法思維。Gao et al.,(2026)的SkillReducer研究提供了技能優化的兩條路徑。一是描述壓縮,為缺少路由描述的技能補充精簡資訊,壓縮冗餘的背景解釋和示例;二是漸進式加載,不一次性把完整技能塞入上下文,而是按需加載,可實現39%的技能體壓縮5。兩者疊加後,在大幅壓減技能調用的token消耗的同時,模型功能品質反而提升2.8%。從中可以看出,Agent技能調用不是越多越好,必要時做減法的收益要遠大於做加法。減少上下文中的無效資訊,不僅可以降低token消耗,還能提升模型輸出的準確性。Less is more在此處不僅符合程式碼之美,也讓token更經濟。
模型路由與任務分流。大模型殺雞用牛刀,是token浪費的重要原因之一。按任務複雜度做自適應模型路由(Model Routing),把簡單、高頻的子任務甩給具備特定領域能力的開源輕量模型,只在關鍵決策點才動用昂貴的Frontier模型。這樣分層調用,能大幅壓低單位任務的平均token成本,又不犧牲關鍵環節的品質。
多Agent預算硬約束與主持人架構。沒有分工、預算上限和明確停止條件的多Agent系統,演變成馬拉松式的茶話會的機率大大增加。解決的路徑是在多智能體協同網路中設計具備硬性預算約束(Hard Budget Constraints)與異步仲裁機制的主持人架構。Luo et al.,(2026)提出的蒙地卡羅樹搜尋方法,在多智能體流程中加入中間步驟的工具驗證,保存候選狀態,必要時回滾。可以將這種思路從推理層面提升到架構層面,為每個子任務設定token預算上限,由主持人Agent監控全域消耗,在預算耗盡前強制終止無效循環7。這不僅能防止財務失控,往往也會同時提升系統的整體效率。
(二)商業面的價值錨定
Token治理與成本紀律。微軟限制Claude Code、Meta撤下token消耗排行榜,大廠已經從對token消耗的單純鼓勵轉向強調token產出和成本紀律性1,2。配額、審批、模型路由、成本歸因、團隊帳單,未來這些措施大機率會成為企業AI治理的基本方式。這是AI進入生產系統後的必經階段,即便AI是促進創新和加速生產的有力工具,也必須把帳算清楚。用了多少token,產生了多少可驗證產出,造成多少返工,都要被計量。沒有計量就沒有管理,沒有上限就沒有紀律。真正先進的公司考核的不是用AI最多,而是用最少的token完成最多的工作。
配給制會成為常態。企業不會無限供給Token,而是像管理雲端運算資源一樣,設定預算池和審批流程。這種治理並不與技術創新對立,恰恰相反,配給制會倒逼架構師設計更高效的Agent系統,將成本約束內化。
找到token大規模商業應用的現實場景。這是實現從token淨收益轉正的根本。程式設計和智能體架構只是邁向token經濟的一小步,尋找到可以產生巨大生產力躍遷的商業場景,是進入到token經濟發展快車道、實現巨大經濟價值創造的前提條件。目前在真實的商業場景中大規模應用智能體架構並帶來巨大收益的案例仍然較少,且多為個案。能廣泛應用於其他企業、其他行業的通用性解決方案仍在醞釀中。
具身智能和數位孿生是拓展方向之一,但必須正視Sim-to-Real Gap帶來的非對稱驗證成本。更務實的路徑是在傳統行業中尋找具備弱確定性回饋的中間地帶,如輔助診斷中的影像篩查(有影像學標準可參照)、供應鏈中的需求預測(有歷史資料可回測)、法律領域中的合約初篩(有條款範本可比對)。這些場景的驗證成本雖不如編譯器趨近於零,但遠低於純粹的物理世界驗證,有望成為token經濟從數位沙盒走向真實世界的橋樑。OpenAI近期重新開始進行機器人研究,說明具身智能雖難,但始終無法繞開。
(三)回歸ROI
任何所創造價值超過所花費成本的投入,無論技術多麼先進,終將不可持續。Token不經濟不是技術失敗,而是技術走向大規模生產時經常遭遇的暫時困境。正如工業革命初期的蒸氣機,效率低下、煤耗驚人,但這並不能否定蒸氣機代表生產力發展的未來方向。透過不斷改良熱效率、拓展應用場景,蒸氣動力最終成為驅動第一階段工業革命的最根本力量。
今天的token和Agent架構正如早期的蒸氣機,噪音大、油耗高,但在特定場景下已展現出遠超人力的潛力,其後續發展必然是一場接一場的從粗放到精細的技術革新,未來更有價值的Agent,不是思考鏈最複雜的Agent,而是用最少token把事做成的Agent。
當行業從以多為榮的炫技階段進入以精為貴的生產階段,當每一枚token的消耗都必須回答產出有何價值,token回歸ROI的金標準,智能體時代就找到了自己的價值方程式。

