AI的下一個地震：為什麼真正的危險不是SaaS殺手，而是算力革命？

撰文：Bruce

最近，整個科技圈和投資界都緊盯著同一件事：AI 應用正在如何「殺死」傳統的SaaS。自從@AnthropicAI 的Claude Cowork 展示了它能如何輕鬆地幫你寫郵件、做PPT、分析Excel 表格後，一場關於「軟體已死」的恐慌就開始蔓延。這確實很嚇人，但如果你的目光只停留在這裡，那你可能錯過了真正的大地震。

這就像我們所有人都抬頭看著天上的無人機空戰，卻沒人注意到，我們腳下的整片大陸板塊正在悄悄移動。真正的風暴，藏在水面之下，一個大多數人看不見的角落：支撐整個AI 世界的算力根基，正在發生一場「寂靜的革命」。

而這場革命，可能讓AI 的賣鏟人：英偉達@nvidia，精心舉辦的這場盛大派對，比所有人想像的都更早結束。

兩條正在交會的革命之路

這場革命並非單一事件，而是由兩條看似獨立的技術路線交織而成。它們像兩支正在合圍的軍隊，對英偉達的GPU 霸權形成了鉗形攻勢。

第一條路，是演算法的瘦身革命。

你有沒有想過，一個超級大腦在思考問題時，真的需要調動所有腦細胞嗎？顯然不需要。 DeepSeek 就想明白了這件事，他們搞出MoE（混合專家模型）的架構。

你可以把它想像成一家公司，裡面養了幾百個不同領域的專家。但每次開會解決問題時，你只需要請兩三個最相關的人，而不是讓所有人一起腦力激盪。這就是MoE 的聰明之處：它讓一個龐大的模型，在每次計算時只激活一小部分“專家”，從而極大地節省了算力。

結果會如何呢？ DeepSeek-V2 模型，名義上有2360 億「專家」（參數），但每次工作，只需要啟動其中的210 億，連總數的9% 都不到。而它的表現，卻能和那個需要100% 全力運轉的GPT-4 相提並論。這意味著什麼？ AI 的能力，和它消耗的算力，脫鉤了！

過去，我們都預設AI 越強，燒的卡片越多。現在，DeepSeek 告訴我們，透過聰明的演算法，可以用十分之一的成本，達到相同的效果。這等於是直接把英偉達GPU 的剛需屬性，打上了一個巨大的問號。

第二條路，是硬體的「換道」革命。

AI 幹活分為訓練和推理兩個階段。訓練就像上學，需要讀萬卷書，這時候GPU 這種「大力出奇蹟」的平行計算卡確實好用。但推理就像我們日常使用AI，更重視反應速度。

GPU 在推理時有個天生缺陷：它的記憶體（HBM）是外掛的，而資料一來一回就有延遲。這就像一個廚師，食材都放在隔壁房間的冰箱裡，每次炒菜都得跑過去拿，再快也快不到哪裡去。而Cerebras、Groq 這些公司就另起爐灶，設計了專用的推理晶片，把記憶體（SRAM）直接焊在晶片上，食材就放在手邊，實現了「零延遲」存取。

市場已經用真金白銀投票了。 OpenAI 一邊抱怨英偉達的GPU 推理不行，一邊扭頭就和Cerebras 簽了個100 億美元的大單，專門租用他們的推理服務。英偉達自己也慌了，反手就花了200 億美元把Groq 給收了，為的就是不在這條新賽道上掉隊。