撰文:Bruce
最近,整個科技圈和投資界都緊盯著同一件事:AI 應用正在如何「殺死」傳統的SaaS。自從@AnthropicAI 的Claude Cowork 展示了它能如何輕鬆地幫你寫郵件、做PPT、分析Excel 表格後,一場關於「軟體已死」的恐慌就開始蔓延。這確實很嚇人,但如果你的目光只停留在這裡,那你可能錯過了真正的大地震。
這就像我們所有人都抬頭看著天上的無人機空戰,卻沒人注意到,我們腳下的整片大陸板塊正在悄悄移動。真正的風暴,藏在水面之下,一個大多數人看不見的角落:支撐整個AI 世界的算力根基,正在發生一場「寂靜的革命」。
而這場革命,可能讓AI 的賣鏟人:英偉達@nvidia,精心舉辦的這場盛大派對,比所有人想像的都更早結束。
兩條正在交會的革命之路
這場革命並非單一事件,而是由兩條看似獨立的技術路線交織而成。它們像兩支正在合圍的軍隊,對英偉達的GPU 霸權形成了鉗形攻勢。
第一條路,是演算法的瘦身革命。
你有沒有想過,一個超級大腦在思考問題時,真的需要調動所有腦細胞嗎?顯然不需要。 DeepSeek 就想明白了這件事,他們搞出MoE(混合專家模型)的架構。
你可以把它想像成一家公司,裡面養了幾百個不同領域的專家。但每次開會解決問題時,你只需要請兩三個最相關的人,而不是讓所有人一起腦力激盪。這就是MoE 的聰明之處:它讓一個龐大的模型,在每次計算時只激活一小部分“專家”,從而極大地節省了算力。
結果會如何呢? DeepSeek-V2 模型,名義上有2360 億「專家」(參數),但每次工作,只需要啟動其中的210 億,連總數的9% 都不到。而它的表現,卻能和那個需要100% 全力運轉的GPT-4 相提並論。這意味著什麼? AI 的能力,和它消耗的算力,脫鉤了!
過去,我們都預設AI 越強,燒的卡片越多。現在,DeepSeek 告訴我們,透過聰明的演算法,可以用十分之一的成本,達到相同的效果。這等於是直接把英偉達GPU 的剛需屬性,打上了一個巨大的問號。
第二條路,是硬體的「換道」革命。
AI 幹活分為訓練和推理兩個階段。訓練就像上學,需要讀萬卷書,這時候GPU 這種「大力出奇蹟」的平行計算卡確實好用。但推理就像我們日常使用AI,更重視反應速度。
GPU 在推理時有個天生缺陷:它的記憶體(HBM)是外掛的,而資料一來一回就有延遲。這就像一個廚師,食材都放在隔壁房間的冰箱裡,每次炒菜都得跑過去拿,再快也快不到哪裡去。而Cerebras、Groq 這些公司就另起爐灶,設計了專用的推理晶片,把記憶體(SRAM)直接焊在晶片上,食材就放在手邊,實現了「零延遲」存取。
市場已經用真金白銀投票了。 OpenAI 一邊抱怨英偉達的GPU 推理不行,一邊扭頭就和Cerebras 簽了個100 億美元的大單,專門租用他們的推理服務。英偉達自己也慌了,反手就花了200 億美元把Groq 給收了,為的就是不在這條新賽道上掉隊。
當兩條路交會:成本雪崩
好了,現在我們把這兩件事放在一起:用一個演算法上「瘦過身」的DeepSeek 模型,跑在一個硬體上「零延遲」的Cerebras 晶片上。
會發生什麼事?
一場成本的雪崩。
首先,瘦身後的模型很小,可以一次全部裝進晶片內附的記憶體。其次,沒有了外部記憶體的瓶頸,AI 的反應速度會快得驚人。最終的結果是:訓練成本因MoE 架構下降了90%,推理成本因專用硬體和稀疏計算再下降一個數量級。算下來,擁有並運作一個世界級AI 的總成本,可能只有傳統GPU 方案的10%-15%。
這不是改良,這是典範轉移。
英偉達的王座,正在被悄悄抽掉地毯
現在你應該明白,為什麼這比「Cowork 恐慌」更致命了。
英偉達今天幾萬億的市值,建立在一個簡單的故事上:AI 是未來,而AI 的未來必須靠我的GPU。但現在,這個故事的根基正在被動搖。
在訓練市場,就算英偉達繼續壟斷,但如果客戶用十分之一的卡就能工作,那麼這個市場的整體規模也可能大幅縮水。
在推理市場,這個比訓練大十倍的蛋糕上,英偉達不僅沒有絕對優勢,還面臨Google、Cerebras 等各路神仙的圍剿。連它最大的客戶OpenAI 都在叛逃。
一旦華爾街意識到,英偉達的「鏟子」不再是唯一的、甚至是最好的選擇時,建立在「永久壟斷」預期上的估值,會發生什麼事?我想大家都很清楚。
所以,未來半年最大的黑天鵝,可能不是哪個AI 應用又幹掉了誰,而是一則看似不起眼的技術新聞:比如一篇關於MoE 演算法效率的新論文,或者一份顯示專用推理晶片市場份額大增的報告,悄悄宣告了算力戰爭進入新階段。
當「賣鏟人」的鏟子不再是唯一選擇時,屬於他的黃金時代,可能也就結束了。

