AI算力產業鏈瓶頸傳導的底層邏輯

  • AI大模型token消耗量3個月內飆升2.5倍,全球數據中心電力缺口巨大,2026年資本支出翻倍。
  • 瓶頸演變路徑:GPU計算(2022-2024)→ HBM存儲(2024-2025)→ 光互連(2025-2026)→ 電力/液冷(2026年起),形成Leontief互補約束。
  • 當前HBM產能全部售罄,價格同比暴漲246%,資本開支中存儲占比可達30%。
  • 銅纜互聯已到極限,光互連成為多機櫃擴展必選項,CPO與矽光技術是關鍵。
  • 終極瓶頸是電力與液冷,單機櫃功耗超200kW,電網並網排隊數年,液冷必須從風冷切換。
  • 每次瓶頸轉移都重塑投資邏輯,從GPU轉向存儲、光學、液冷/電力基礎設施。
總結

作者: qinbafrank

2月在《這場資本開支的戰爭意味著什麼? 》裡有聊過算力產業鏈上關鍵環節依然能攫取最大的價值:晶片、封裝測試、儲存、光模組等,哪些產能不易快速擴張的,哪些是有極高護城河的,就會享受到龐大資本開支的紅利;

效率優化空間仍然很大:推理端的蒸餾、量化、MoE、專用晶片、液體冷卻、核融合(遠期)等可能把單位算力的能耗和成本再降10–100倍。要在這些環節上尋找機會。

最近多家投行大摩、摩根大通、美銀、高盛、瑞銀、花旗、伯恩斯坦、HSBC,發布AI/半導體/電力/存儲相關更新報告,AI硬體的瓶頸已經從"GPU 供應"單一維度擴散到電力、芯片、存儲、設備、材料五個維度的集體緊張

AI 需求量級已經突破了傳統電力規劃、半導體設備產能、儲存價格模型、機器人裝置假設的所有預測區間

大摩的全球主題研究複盤指出,全球每周大語言模型token 消耗量在3 個月內從6.4 萬億個飆升到22.7 萬億個,增幅達到2.5 倍,美國2025-28 年數據中心電力缺口55 吉瓦;摩根大通的數據中心高性能計算項目首次覆蓋數字吉瓦飆升到230 吉瓦,44% 的新項目併網等待時間超過4 年;美銀給Alphabet 的最新目標價報告裡,2026 年資本支出被直接上修到1815 億美元、同比翻倍,自由現金流同比下降62%。這三組數據不是同一套框架的輸出,而是三家獨立機構在不同研究路徑上的獨立畫像。

半導體產業鏈(尤其是AI算力領域)的瓶頸演變,正是從「計算(GPU)→儲存(HBM等)→光互連→電力/液冷」這一清晰的順序遞進的。 這是2025-2026年行業共識,隨著AI訓練/推理集群從單機櫃(幾十張GPU)向超大規模(數千至數十萬張GPU)擴展,每解決一個環節的瓶頸,下一個物理/供應鏈限制就會立即暴露出來,形成“Leontief式”互補約束(缺一個都無法出貨)。

有必要了解為什麼會出現這種演變、當前現狀以及背後的物理/工程原因:

1. 第一階段瓶頸:GPU運算(2022-2024年主導)核心限制:

高階GPU(如NVIDIA Hopper H100 → Blackwell B200 → Rubin)本身的晶圓產能+ 先進封裝。

為什麼是瓶頸:AI大模型需要海量平行計算,TSMC 4nm/3nm/2nm邏輯製程+ CoWoS(2.5D/3D封裝)產能一度成為最大卡點。就算前端晶圓夠,後端把邏輯晶片+ HBM堆疊封裝的能力跟不上,整張GPU就出不來。

緩解情況:TSMC大力擴CoWoS(2024-2025年產能翻倍),NVIDIA Blackwell已大規模出貨。但這只是「計算」環節解鎖,後面立刻暴露新問題。

2. 第二階段瓶頸:儲存(HBM高頻寬內存,2024-2025年成為最緊缺)

核心限制:HBM3/HBM3e/HBM4產能。

為什麼接力成為瓶頸:GPU算力上去了,但模型參數爆炸式增長(萬億甚至十萬億參數),數據搬運(memory bandwidth)成了“內存牆”。 HBM 每秒可傳輸數TB 數據,比常規DDR 記憶體快20 倍以上。由於HBM緊鄰邏輯晶片,數據無需傳輸太遠,因此節省了能耗。

一張B200 GPU需要192GB+ HBM3e,單機櫃(NVL72)HBM總量已達30-40TB,且頻寬需求遠超傳統DRAM。

供應鏈現況:僅SK海力士、三星、美光三家能規模化生產HBM,工藝複雜(矽通孔TSV + 堆疊),2025年已全部賣光,2026年仍供不應求,價格同比暴漲246%。即使GPU晶片ready,沒有HBM就無法組裝交付,導致整個AI叢集部署延期。

結果:儲存從「商品」變成策略級卡脖子環節,資本開支中儲存佔比可達30%。

3. 第三階段瓶頸:光互連(2025-2026年正在切換)

核心限制:銅纜(NVLink/NVSwitch)在頻寬、距離、功耗、重量上的物理極限。

為什麼必然轉向光:單機櫃內(72張GPU)還能靠銅纜,但要擴展到多機櫃、乃至數千張GPU互聯時,銅纜衰減嚴重(1.8TB/s帶寬下有效距離<1米)、重量爆炸(NVL72機櫃銅纜超5,000根、總功率為1.36噸)訊號完整性、延遲、散熱都無法支撐更大集群。

解決方案:轉向光互連(CPO共封裝光學+ 矽光子技術)。把光引擎直接封裝在GPU/ASIC旁邊,用光纖實現Scale-Out,頻寬密度更高、每位元功耗更低、距離更遠。

NVIDIA在2026年GTC大力押注,已投資光學公司,800G/1.6T光模組需求爆發式成長。 lite、Broadcom、Coherent、Ayar Labs等成為新贏家。

當前進度:銅纜已到極限,光互連正從“可選”變成“必選項”,正突破AI資料中心效能天花板。

4. 第四階段瓶頸(目前最前線):電力+ 液冷(2026年起成為最終物理約束)核心限制:功耗牆+ 散熱牆+ 電網接入。

為什麼是終極瓶頸:每個GPU從300W→700-1200W,單機櫃從10-20kW(CPU時代)飆升到120-200kW+甚至更高。傳統風冷物理上限只有20-50kW,噪音、風量、耗能都不可接受。

電力側:資料中心需GW級供電,電網併網排隊可達數年,變壓器、固態變壓器等設備交付週期拉長至100週。微軟CEO曾直言「有GPU但沒電插」。

液冷側:必須切換到Direct-to-Chip(直接晶片液冷)或浸沒式液冷,結合微流控、冷板等技術。台積電已在CoWoS平台展示矽基液冷,支援>2.6kW TDP。 Vertiv(VRT)等液冷/熱管理廠商成為基礎設施新核心。

連鎖反應:PUE(電能利用效率)需求<1.2,餘熱回收、核電/新型能源併網都成為新議題。即使前面所有環節都解決,沒有電力和寒冷,機櫃也無法上架運作。

AI算力產業鏈瓶頸轉移的本質邏輯AI算力不是「單點」問題,而是系統級Leontief生產函數-GPU、HBM、互連、電力、冷卻必須按最低短板匹配。 hyperscaler(Google、微軟、Meta等)每解決一個,就立刻把資本和創新推向下個環節。

目前(2026年)正處於「光互連加速落地+ 電力/液冷大規模商用」的切換期,未來可能還會出現新瓶頸(如雷射、光纖材料或電網變壓器),但這個「計算→儲存→光→電/冷」的鏈條已成業界公認路徑。

這也解釋了為什麼投資邏輯從NVIDIA/TSMC轉向HBM三巨頭(SK海力士等)、光學廠商(Lumentum、Coherent)、液冷/電力基礎設施(Vertiv、相關電源公司)。

每一次瓶頸轉移,都在重塑整個半導體+資料中心產業鏈的價值分配。

分享至:

作者:qinbafrank

本文為PANews入駐專欄作者的觀點,不代表PANews立場,不承擔法律責任。

文章及觀點也不構成投資意見

圖片來源:qinbafrank如有侵權,請聯絡作者刪除。

關注PANews官方賬號,一起穿越牛熊
PANews APP
聯準會主席沃什:將推動以改革為導向的央行治理框架
PANews 快訊