作者:戈多Godot
我們的故事,要從一個比賽說起。
李飛飛曾任Google 副總裁及Google Cloud AI/ML 首席科學家,同時也是史丹佛大學教授。但她還有另一個重身分——ImageNet 大賽創辦人。
ImageNet 競賽,正式名稱ILSVRC(ImageNet Large Scale Visual Recognition Challenge),是電腦視覺領域最具影響力的學術競賽。
2012年ImageNet 大賽,圖靈獎得主杰弗裡·欣頓(Geoffrey Hinton)的學生Alex Krizhevsky,憑藉AlexNet 神經網絡將圖像識別錯誤率從26% 降至15.3%,以領先第二名10.8個百分點的驚人優勢震驚世界。
關鍵在於,AlexNet 並未使用超級計算機,而是僅靠兩塊普通的英偉達GTX 580 遊戲顯示卡完成訓練。這是AI 首次大規模使用GPU 加速。在此之前,訓練主要依賴CPU。
這結果等於向全世界宣告:AI 深度學習+ GPU = 算力革命。
當研究者紛紛將目光轉向GPU 時,他們發現,只有英偉達的CUDA 能讓他們用類別C 語言寫出複雜演算法。
黃仁勳的“十年豪賭”
時間撥回2006年。彼時GPU 的職責只有一件事:渲染遊戲畫面。
但黃仁勳想讓GPU 變成通用運算工具。他堅信摩爾定律在CPU 上已近失效,而串行運算的未來必然是平行運算。
於是在2006年,首席科學家Ian Buck 領銜開發CUDA(Compute Unified Device Architecture)。然而當時根本沒人知道這東西有什麼用。
為了支撐CUDA,英偉達在每一顆GPU 晶片中都額外嵌入一塊專用運算電路。這意味著晶片面積增大、功耗升高、良品率下降、成本飆升。
除了極少數科研人員,沒人買單。在深度學習爆發前,英偉達甚至主動向全球頂尖實驗室免費寄送顯示卡,並派駐工程師協助優化。
CUDA 每年要燒掉英偉達約5億美元的研發費用,當時英偉達一年的利潤也不過幾億美元。 2008年金融危機來襲,英偉達股價重挫。
黃仁勳頂著股價暴跌的壓力,堅持了整整十年。他始終堅信,GPU 不僅僅是用來渲染遊戲畫面的,而是一台通用平行處理器。
在2012年那個轉捩點上,Intel 還在忙著維護CPU 的霸權。 Intel 長期迷信CPU 的通用性,認為神經網路不過是一陣風。即便要算,也可以透過擴展CPU 指令集(如AVX)來解決。
AMD 當時正深陷收購後的陣痛,在軟體投入上極其吝嗇,導致其AI 軟體棧ROCm 直到今天在易用性和穩定性上仍落後CUDA 幾個身位。
於是,2012年那個夏天,Alex Krizhevsky 面對ImageNet 比賽中數百萬張圖片,正愁CPU 算不動。他發現CUDA 極為好用,便用類C 語言寫了幾千行程式碼,跑在兩塊GTX 580 上。
結果一出,全球學術界震動。原本要跑幾週的實驗,在GPU 上幾天便出了結果,且準確率斷層領先。
放棄行動互聯網,全面轉向GPU 運算
2013年,黃仁勳在GTC 大會上做出了一個在當時看來近乎瘋狂的決定,將公司重心全面轉向GPU 運算。
那是行動網路的黃金時代,智慧型手機浪潮正盛。英偉達雖在手機市場受挫,卻沒有在手機晶片領域死磕,而是果斷將資源全部抽調回來,押注當時還極為小眾的數據中心加速計算。
同年,CUDA 進入5.0/5.5 時代,引進動態並行(Dynamic Parallelism),GPU 可在不回傳CPU 的情況下自行啟動新任務,大幅削減通訊延遲。
同時,英偉達內部開始秘密研發cuDNN,專為深度神經網路打造CUDA 深度學習函式庫,將神經網路中最難寫的捲積演算法直接封裝在底層函式庫中。開發者只需呼叫一行指令即可完成操作。
而換到AMD 的顯示卡上,同樣的功能得自己寫幾百行複雜的底層程式碼。
2014年,深度學習架構混戰拉開序幕。 Google 開源了TensorFlow,英偉達隨即派出大量工程師駐紮在開源社區,持續優化CUDA 適配。當TensorFlow 1.0 發佈時,在英偉達顯示卡上的運作效率比AMD 顯示卡高出數倍。
"顯示卡買英偉達",開始成為業界共識。
時至今日,CUDA 已從一個開發工具演變為一種業界標準語言。 GitHub 上數以億計的AI 程式碼庫依賴CUDA 原語,大學課程幾乎全部基於CUDA 教學。這意味著新一代工程師在畢業前就已成為英偉達生態的"原住民"。
GitHub 上數以億計的AI 程式碼庫依賴CUDA 原語。大學課程幾乎全基於CUDA 教學。這意味著新一代的工程師在畢業前就已經成為了NVIDIA 生態的「原住民」。
在CUDA 之上,還有一套龐大的中介軟體與庫體系。
A. cuDNN 與cuBLAS
深度神經網路與線性代數庫,歷經十餘年手工彙編級優化。
B. TensorRT
推理優化引擎,能自動融合算子、篩選最佳kernel、執行量化校準。進入Blackwell 時代後,TensorRT-LLM 更成為部署大語言模型的標配,直接支援FP4/FP8 極致優化,競爭對手難以望其項背。
C. Triton Inference Server
已成為雲端原生AI 推理的事實標準。
黃仁勳、馬斯克、OpenAI、《Attention is All You Need》…2017,AI 之神顯靈
2017年,英偉達Volta 架構誕生,旗艦產品Tesla V100 隨之發表。這顆晶片上第一次出現了Tensor Core。
AI 計算從這一刻起,由向量運算邁入矩陣運算時代。 AI 算力爆發,迎來元年。
而早在2016年底,黃仁勳便親手將全球第一台搭載早期加速卡的DGX-1 超級計算機,送到了當時還名不見經傳的OpenAI 辦公室。
於是便有了那張著名的照片。照片中雙手交叉的人,正是OpenAI 出資人馬斯克。這台機器後來成為訓練GPT 系列模型的"始祖機"。
2017年也發生了一件看似無關、實則決定了今天格局的大事:Google 發表論文《Attention is All You Need》,提出了Transformer 架構。
這篇論文奠定了當今大語言模型的基石,徹底改變了AI 處理資訊的方式,並直接促成了後來ChatGPT、Claude、Gemini 等大模型的誕生。
Transformer 架構的運算幾乎全部由矩陣乘法構成,對算力的需求極為貪婪。
矩陣乘法,是不是有些眼熟?沒錯,英偉達的Tensor Core,恰恰就是為矩陣乘法而生的。
至此,AI 的"寒武紀大爆發"正式拉開序幕。
宏觀角度看,英偉達的霸主地位建立在三大支柱之上:
1)Tensor Core 架構
實現了向量計算到矩陣計算的跨越、從通用計算到深度學習專用計算的跨越。
2)CUDA 軟體生態
英偉達最深護城河,不僅是程式語言,更是涵蓋cuDNN、cuBLAS 等在內的龐大函式庫與工具集合,使得遷移成本極高。
3)NVLink 互連技術
GPU 之間協作的橋樑。
通俗理解三者的關係:Tensor Core 是硬體創新,CUDA 是軟體生態,NVLink 是互聯通道,分別對應效能、生態與可組合性。
其中Tensor Core 是英偉達真正甩開對手、確立AI 霸主地位的關鍵。不理解Tensor Core,就無法理解現代AI 晶片。
Tensor Core 標誌著GPU 從圖形渲染設備徹底轉型為AI 專用運算平台,以犧牲通用性為代價,換取矩陣乘法(Matrix Multiply)這一AI 核心運算上的極致效能。
什麼是Tensor Core ?
Tensor Core 可進一步拆解為三個核心概念:
1)矩陣乘法(Matrix Multiplication) 2)混合精度(Mixed Precision) 3)架構演進
1)矩陣乘法(Matrix Multiplication)
從向量計算邁向矩陣計算,是Tensor Core 實現效能飛躍的核心邏輯。
傳統CUDA Core 執行的是標量或向量運算,例如A + B。即便並發執行,每個週期也只能處理有限的資料點。
Tensor Core 則是嵌入GPU 內部的DSA(Domain Specific Architecture,領域專用架構)模組,相當於在通用GPU 架構內部植入了ASIC 等級的專用加速單元。
Tensor Core 並不是為了執行所有類型的指令,而是專精於一種特定運算-矩陣乘累加,即D = A × B + C。
通俗地說,向量計算像是一行一行地下達計算指令;矩陣計算則是直接輸出一整塊表格(4×4 矩陣)。
2)混合精準度(Mixed Precision)-模糊的藝術
AI 的本質是機率,而非定論。
判斷一張圖裡是貓還是狗,98.0001% 的機率與98.0000000001% 的機率並無差別。但精度不同,對算力效率的影響卻天差地別。
所謂混合精度,就是在不影響結果正確性的前提下,盡可能用低精度換取極致效率。
A. 如何衡量精度?
這裡要介紹一個概念:FP(Floating Point),也就是浮點數。
在電腦內部,任何數字都由0 和1(位元/Bit)組成。一個浮點數通常包含三個部分:
1)符號位(Sign),表示數字是正還是負。 2)指數位(Exponent),決定數字的大小範圍。 3)尾數位(Mantissa/Fraction),決定數字精度,即小數點後面有多少位。
常見的如FP32,用32位元記錄一個數,極為精確但佔用空間大。
FP16 空間減半、速度翻倍,但精度和範圍都隨之縮小;FP4 則是極低精度,類似像素畫,只能記錄非常模糊的數值。
在電腦科學中,這本質上是在有效資訊量(資訊熵)、計算吞吐量與數值穩定性之間尋找最優解。
B. 混合精度如何運作?
a. 精度降級
計算時,Tensor Core 將原本32位元的輸入強制轉換為16位元。
FP32:1位符號+ 8位指數+ 23位尾數。 FP16:1位符號+ 5位指數+ 10位尾數。
尾數位從23 降到10,在矩陣乘法階段,計算壓力減少4倍以上。
b. 累加保護
這就是Tensor Core 設計最精妙。
輸入是FP16,但累加使用FP32-注意,加法用的是FP32。
原因在於,小誤差在相乘時尚且安全,但若在數萬次相加中持續丟棄微小值,誤差會迅速放大。透過在高精度下累加,英偉達保障了最終結果的精確性。
c. 損失縮放-對抗"下方溢位"
AI 訓練中,若全程使用FP16,模型會崩潰。因為有些關鍵數據極為微小,FP16 根本無法表達,這個問題叫下溢出。
對策是,程式在計算前將損失值乘以一個巨大的係數(如1024),強行將這些微小梯度推回FP16 能表現的有效範圍內。計算完成後,再除以1024 還原。
C. 混合精度的極限-Microscaling Format(MX)微縮放
英偉達V100 支援FP16,到了H100 變成FP8,B200 進一步降到FP4。
FP4 雖然比FP16 快得更極致,但FP4 只能表達2⁴ = 16 個數值。要知道一張圖片中的色號都遠不止16個,AI 將無法分辨梵谷的《向日葵》和《星空》。
於是在Blackwell 架構中,英偉達引進了Microscaling Format,其核心思想是塊浮點(Block Floating Point)。
通俗地說,AI 網路同一個向量塊中,數值的數量級往往相近。與其對每個數值逐一縮放,不如按批次處理:在一批數值中找到絕對值最大的那個,以此確定公共縮放因子。
最棘手的情況是,一組數據裡混入了一個極大值,而其餘都是極小值。
就像一張照片裡既有太陽,旁邊又有一隻微弱的螢火蟲。在AI Transformer 的某些層中,這種"異常值"時常冒出。
這也正是英偉達在Blackwell 架構中並未完全拋棄FP8 和FP16,並且在軟體層面投入大量精力做平滑處理的原因。
3)架構演進
這裡有個很方便的記憶方式:
Volta 是誕生——Ampere 走向主流——Hopper 大爆發——Blackwell 現在最火。
年份越往後,架構名越靠後,支援的精度(FP 後的數字)越小,矩陣運算的量級越大,AI 越像人。
2017年Volta(V100):一場極為冒險的豪賭
2017年Volta 問世,是英偉達發展歷程中的關鍵分水嶺。
在此之前Pascal 架構,例如GTX 1080 Ti,主要目標還是讓遊戲畫面更好看。
而從Volta 開始,黃仁勳做了一個當時看來極其冒險、事後證明是神來之筆的決定——模糊精度,即降低精度換取極致AI 計算效率,讓GPU 從通用計算設備變成AI 專用平台。
2017年以前,科學計算領域如天氣模擬、核爆仿真,要求絕對精準,大家都在比拼FP32 單精度甚至FP64 雙精度算力。
但突然之間,AI 爆發了。而AI 網路恰恰很"抗噪"。
訓練AI 就像教小孩認貓,不需要告訴孩子這隻貓耳朵長3.1415926 厘米,只需要說大概3 厘米就夠了。
英偉達在V100 上大力推行混合精度:計算用FP16 半精度,累加時用FP32 高精度防止誤差累積。就像從寫楷書變成寫草書,速度瞬間翻倍,而AI 準確率幾乎沒有下降。
這在當時極其冒險。在一顆極其昂貴的晶片上劃出一大塊面積,為一個當時僅有少數人在用的矩陣運算做專用電路,這是非常、非常、非常冒險的決定。
但黃仁勳和英偉達賭對了AI 大爆發。
於是,這成為了其他競爭對手,如英特爾,至今落後的原因。
2018年Turing(T4)-遊戲畫質的超級革新:光追與DLSS
其實到此時,晶片的主要使用場景仍是遊戲畫面渲染。
2018年,英偉達發表Turing 架構(RTX 2080 Ti)。這是顯示卡史上第一次將三種完全不同性質的處理器封裝在同一塊矽片上。
先解釋一下背景。
在此之前,遊戲畫面渲染用的是光柵化(Rasterization),本質上就是2D 貼圖。老遊戲玩家應該要深有體會。例如水面倒影,其實是預先畫好再貼上去的,玩家視角變了,影子紋絲不動。
光線追蹤(Ray Tracing)則是模擬真實物理世界的光影效果。遊戲中的光線和倒影會隨玩家視角與光源即時變動。
光追在此之前並非做不了,只是計算量太大,遊戲會直接卡成PPT。
Turing 架構中,三種完全不同性質的處理器分別是RT Core、CUDA Core 和Tensor Core。
1)RT Core(Ray Tracing Core,光線追蹤核心)
這是Turing 的獨創,專門負責計算光線與三角形的求交運算(BVH Traversal)。功能極為單一,只用於光追計算。將這類枯燥的幾何運算從通用核心中抽離出來,效率提升了數十倍。
2)CUDA Core(通用運算核心)
繼續承擔傳統的光柵化渲染任務。
3)Tensor Core(混合精度計算核心)
新增INT8、INT4、INT1 支持,引入低精度推理能力,並首次將Tensor Core 帶入消費級顯示卡(RTX 20 系列)。
這裡隱藏著一個偉大的發明-DLSS(深度學習超級採樣)。
其邏輯是,光追計算太吃力,先渲染1080P 畫面,再用Tensor Core 跑一個神經網絡,將1080P 的畫面"腦補"成4K。
這是AI 生成內容在圖形領域的首次大規模落地,證明了AI 可以成為傳統圖形管線的一部分。
2018年前後,傳統效能成長已觸及瓶頸。英偉達強推光追,本質上是重新定義了衡量顯示卡優劣的標準。 AMD 或Intel 即使想跟進,也缺乏像Tensor Core 這樣高效的硬體來支撐。
也就是說,英偉達形成了"演算法+ 硬體+ 訓練資料"的全方位封鎖。
光追與Tensor Core 的結合,也意外地打開了通往元宇宙和數位孿生的大門。
既然Tensor Core 能透過AI 補全遊戲畫面,那能不能根據幾張照片,直接"腦補"出一個真實的3D 空間?這便是近幾年大熱的NeRF 神經輻射場技術,實現了只需幾秒鐘便能從影片生成3D 模型。
2020年Ampere(A100)-史上最成功的AI 晶片
用"易用性革命"概括A100,再適合不過。 A100 之前,計算領域有三個問題: 1)精度分裂。 FP32 太慢,FP16 太難駕馭; 2)算力分割。訓練卡和推理卡互不通用; 3)資源分裂。大模型吃不飽,小模型吃撐了。
英偉達在A100 上做出了堪稱革命性的改進:1)TF32(TensorFloat-32)2) 結構化稀疏(Structural Sparsity) 3)MIG(Multi-Instance GPU)
三者合力,實現了單張晶片的大一統。
TensorFloat-32 (TF32)
這是一個天才設計。還記得上文提到,先前AI 計算沿用高精度方案,進行氣像模擬、粒子模擬、核爆軌跡推演等場景嗎?
TF32 能讓那些習慣寫出高精準度FP32 程式碼的開發者,不改程式碼,直接享受Tensor Core 的模糊精度加速。
TF32 並非一種全新的儲存格式,而是一種運算中間格式。
透過對FP32 進行"截斷"實現加速,本質是為了平衡計算精度與數值範圍,設計的一種全新數學格式。
上篇提到,計算機內部任何數字都由0 和1(位元/Bit)組成。一個浮點數通常由三個部分構成: 1)符號位(Sign),數字是正還是負。 2)指數位(Exponent),決定數字的大小範圍。 3)尾數位(Mantissa/Fraction),決定數字精度,即小數點後面有多少位。
常見的如FP32,用32位元記錄一個數,極其精確但佔用空間大;FP16 空間減半、速度翻倍,但精度和範圍都隨之縮小;FP4 則是極低精度,類似像素畫,只能記錄非常模糊的數值。
TF32 精妙之處在於,把FP32 的範圍和FP16 的精度拼接在一起,形成一個19位的格式:符號位1 bit,指數位8 bit(與FP32 一致),尾數位10 bit(與FP16 一致)。
換句話說,TF32 是FP32 與FP16 之間的橋樑。是不是非常天才! ! ! ! ! ! !
其工作流程如下:TF32 從顯存中讀取標準FP32 數據,Tensor Core 在硬體電路中自動將尾數位元從23-bit 截斷為10-bit,轉換為TF32 格式,在此格式下執行高效乘法;所有中間乘積最終在FP32 精度下完成累加;寫回顯存的數據仍然是標準FP32。
更關鍵的是,截斷過程完全自動,意味著可以自動兜住數值的下溢位問題。
結構化稀疏(Structural Sparsity)
稀疏的本質,是把不重要的權重變成0。就像辨識一張貓的圖片,大部分像素不起決定作用。
英偉達規定:在每4 個連續權重中,必須有2 個被設為0。原本需要64 bit 的數據,現在只需約34 bit,模型在顯存中幾乎瘦身一半。
打個比方,如果顯示卡有80GB 顯存,原本只能裝下400億參數(40B)的模型。開啟結構化稀疏後,可能就能塞進一個接近700億(70B)甚至800億(80B)參數的模型。
而且性能還翻了倍。密集計算156 TFLOPS(每秒156 兆次運算),稀疏計算312 TFLOPS。
如果再疊加上文提到的TF32 相較傳統FP32 帶來的近10倍提升,會發現A100 在處理特定AI 任務時,比幾年前的舊顯示卡快了整整一個時代。
至於是否會擔心連續4 個權重都很重要、失去關鍵資訊?首先,模型尚未"定型"時,權重是可以流動調整的。
其次,神經網路具有極強的容錯能力——雖然在某個小局部損失了訊息,但其他層可以透過學習來彌補這一損失。
此外,稀疏並非隨機刪除,而是按權重大小裁切。
MIG(Multi-Instance GPU)
MIG 用於晶片的空間管理,將單顆GPU 在實體電路層面進行"硬分割"。沒看錯,是物理層面的切分。
在A100 上,MIG 最多可將GPU 切成7 個獨立實例(Instance),每份都擁有自己專屬的Tensor Core 和顯存路徑。
切分方式靈活多樣,例如切成7 個小實例,或1 個大實例加3 個小實例。硬體在出廠時就具備了這種"切割"能力,但具體怎麼切、切成幾份,完全可以在購入後透過軟體指令即時控制。
在A100 的硬體結構中,MIG 主要切割三類核心資源: 1)SM(串流多處理器)。運算核心,包含CUDA Core 和Tensor Core。 2)記憶體系統(Memory System),包括HBM2 記憶體與L2 快取。 3)頻寬(Pathways),晶片內部的資料傳輸通道(On-chip crossbar)。
每個實例擁有獨立、固定的記憶體位址空間和計算路徑。這表示A 實例在瘋狂讀寫資料時,其產生的電磁訊號和匯流排佔用完全不會幹擾到B 實例。
這帶來的好處顯而易見:
- 其一,大幅提高利用率、節省成本。一張A100 售價數萬美元,如果只給一個博士生跑實驗,未免太過奢侈。有了MIG,一家公司可以讓7 位工程師在同一張卡上同時進行不同實驗,效率提升7倍。
- 其二,深受雲端租賃市場歡迎。雲端服務商可以按需靈活出租算力。
從更宏觀的視角回望:
- Volta(2017):證明通用運算的CUDA Core 不再是唯一主角,矩陣運算的Tensor Core 是AI 時代的皇冠。
- Turing(2018):證明精準度並非越高越好,低精準度INT8/INT4 才是推理時代的王道;同時證明AI 可以反哺圖形學。
- Ampere(2020):證明分裂是低效率的,統一才是最終答案。訓練與推理整合進同一塊矽片(A100);同時證明稀疏化與TF32 比"蠻力的精準"更俱生產力。
在進入2022年的H100 之前,必須先介紹英偉達壟斷地位的另一個關鍵創新-NVLink。
如果說Tensor Core 是晶片的心臟,那麼NVLink 就是連接數萬顆心臟的大動脈。
NVLink:GPU 之間的點對點高速互連協定
NVLink 是GPU 之間的點對點高速互連協議,在GPU 之間建立高速公路,讓GPU 直接對話,繞過CPU。
NVLink 存在的唯一目的—幹掉PCIe 瓶頸。
什麼是PCIe 瓶頸?
PCIe(Peripheral Component Interconnect Express)是電腦主機板上的通用匯流排,設計初衷是讓CPU 連接各類週邊設備,如顯示卡、音效卡、網卡、硬碟。
AI 場景下,瓶頸主要體現在:
1)頻寬太低。目前最先進的PCIe 5.0 x16 理論頻寬約為63 GB/s,聽起來很快,但H100 的顯存頻寬高達3,350 GB/s。這意味著GPU 內部算得極快,但資料進出的速度比內部運算慢了50倍。
2)延遲太高。透過PCIe 傳輸需要CPU 介入。資料先從顯示卡A 傳給CPU,再由CPU 轉送至顯示卡B,產生巨大的延遲。
為何這個瓶頸?最主要原因是,PCIe 的設計初衷是通用。
說句題外話,通用與AI 專用之間的權衡,貫穿英偉達崛起的始終,也是英偉達能彎道超車Intel 的最核心原因。 Intel 的長處在於CPU——功能強大、通用性強,但也恰恰構成了AI 運算的瓶頸。
而英偉達的崛起,正是因為敢於押注AI 計算的專用性,並且賭對了。
從物理極限、協定損耗、拓樸矛盾三個更專業的維度,可以更好地理解通用性與專用性之間的權衡。 1)拓樸矛盾。在PC 端或伺服器架構中,所有PCIe 通道最終都匯聚於CPU。
CPU 像交通環島,所有車輛必須繞島一圈。即便GPU 算力再強,只要CPU 調度不過來,或CPU 連線的頻寬被佔滿,資料交換就會卡頓。這就是所謂的CPU 結合瓶頸。
2)協定損耗。 PCIe 傳送封包時,需要附加封包頭、校驗碼等額外資訊;傳輸完成後,也要傳送"中斷請求",讓CPU 處理後續邏輯。
3)物理層面的干擾。趨膚效應(Skin Effect)-頻率越高,電訊號越傾向在導線表面流動,導致電阻增大、訊號衰減。
NVLink 如何幹掉PCIe 瓶頸?
回到那句話:NVLink 存在的唯一目的-幹掉PCIe 瓶頸。如何做到?逐一來看。
1)拓樸結構重構
NVLink 讓GPU 之間直接點對點通信,徹底繞過CPU 和系統記憶體。
2)協議極致簡化
NVLink 採用類記憶體傳輸協議,協議開銷極低,有效載荷比遠高於PCIe。
3)實體層面升級:多通道並行與高頻寬
在H100 晶片背面,英偉達密密麻麻地佈滿了18 條NVLink 鏈路,雙向總頻寬達到900 GB/s。而PCIe 5.0 x16 的頻寬僅為63 GB/s。 NVLink 的速度是PCIe 的14倍以上。
4)多卡合一:記憶體池化與NVSwitch
英偉達不僅做了線,還專門做了交換器晶片——NVSwitch。在伺服器內部,所有GPU 都連接在NVSwitch 上。
NVLink 網路化:從點對點到全互聯
更進一步,NVLink 能將多張GPU 連接為統一整體,以裝載更大的模型。要理解這一點,需要補充三個硬核維度。
1)NVSwitch-從高速路到立體交叉
NVSwitch 並非整合在GPU 晶片內部,而是獨立的交換器晶片,安裝在GPU 基板上。如果說NVLink 是高速公路,NVSwitch 就是立體交叉。
A100 之前,GPU 之間主要是點對點連接。 H100 之後,有了NVSwitch,GPU 從點對點通訊邁入了網路化時代,可以將多張卡片連成更大的整體,裝載更大的模型。
想像一下點對點通訊的限制:如果有8張卡,卡A 與卡B 有NVLink 實體連線,但卡A 想與卡D 通信,就需要經過B 和C 中轉,佔用它們的頻寬。
以H100 為例,GPU 底部有18 條第四代NVLink 連結,這些連結插在主機板的NVLink 背板上。在8張卡片之間,分佈著4 到6顆專用的NVSwitch 晶片。每張GPU 的所有NVLink 路徑都直連到這些交換器上,而不是直接連接到另一張卡。
這種拓撲結構確保了任兩張卡之間的通信,無需經過CPU 或主機板上的PCIe 總線。
更專業地說,NVSwitch 的核心技術指標是無阻塞全雙工頻寬(Non-blocking Switch),保證任何一張GPU 都能同時以最高速率與另一張GPU 通訊。
2)網路運算(SHARP)-讓交換器一邊搬資料一邊算數
網路運算是英偉達又一項黑科技,改變了電腦通訊的基本邏輯:網路交換器不再只是搬運數據,而是在傳輸過程中直接把數學題算了。
在AI 大模型訓練中,有一個動作會重複千萬次:梯度聚合(All-Reduce)。
簡單來說,梯度聚合就是讓參與訓練的所有GPU 交換彼此的運算結果,最終讓每張卡片都有完全相同的、經過彙總後的最新資料。
梯度聚合有點類似區塊鏈的分散式計算,顧名思義,主要包含"梯度"和"聚合"兩個步驟。
訓練大模型時會涉及平行計算。每張顯示卡拿到一部分數據,算出自己那份數據的誤差方向,即梯度。
由於每張卡片看到的資料不同,算出的梯度也不同。如果各自直接更新,幾張卡片上的模型就會南轅北轍。
因此在更新權重之前,所有卡片必須把各自的梯度加起來求平均值。所有卡片拿到這個全域平均梯度後同步更新,確保8張卡里的模型永遠一模一樣。
關於梯度聚合的具體計算方式。
A100 採用環形聚合(Ring All-Reduce),是當時最節省頻寬的演算法,將數據切成N 片,像接力賽一樣傳球。
SHARP 則採用樹狀聚合(Tree All-Reduce),是英偉達目前力推的方案,資料像樹根一樣層層匯聚。 GPU 將資料傳送給第一層NVSwitch,SHARP 技術在交換器晶片接收多個GPU 資料流時直接完成加法運算,再把結果傳回各GPU 晶片。
為什麼梯度聚合(All-Reduce)是AI 的生命線?
評估一個GPU 叢集優劣的標準,不是看單卡多快,而是看當卡數增加到1000張時,梯度聚合耗時是否還能控制在毫秒級。
如果顯示卡算力很強(如H100),但網路很弱,就會發現GPU 有70% 的時間在跑梯度聚合。也就是在等數據,只有30% 的時間在真正計算AI。這就是所謂的通信受限。
NVLink、NVSwitch、SHARP 這一系列技術的存在,本質上都是為梯度聚合提供最快的通道。
接下來,2022年,英偉達核彈級產品H100 將登上舞台。
2022年Hopper(H100)-Transformer 引擎,現代大模型的基石
2022年,H100 問世,堪稱核彈。
H100 直接將特定的軟體演算法Transformer 刻進晶片,專為處理萬億級參數的大語言模型LLM 而生。
2022年H100,堪稱核彈。
Transformer 架構源自Google 在2017年發表的論文《Attention Is All You Need》,是現代大語言模型的基礎。而Transformer 引擎是H100 內部的一個實體模組。不是軟體,是硬連線的電路。
同時,H100 利用FP8 精度實現了比A100 快9倍的訓練性能,配合NVLink Switch,能讓256張顯示卡化身為一個巨型超級大腦。沒有H100,就沒有ChatGPT 及萬億參數大模型時代的爆發。
研究H100,可以從四個面向著手:
1)Tensor Core 引進Transformer 引擎與FP8;
2)第四代NVLink 與NVSwitch 實作900 GB/s 頻寬;
3)引入新CUDA 特性-DPX 指令集加速動態規劃;
4)全球首款支援隱私運算的GPU。
Tensor Core 引入Transformer 引擎與FP8
在H100 中,FP8 像是衝鋒陷陣的執行者。推理和訓練的大部分矩陣乘法都可以跑在FP8 上。
FP16 像老謀持重的文官,保留副本,不至於因精度太低而丟掉更新量,起到承上啟下的作用,兼顧速度與穩定。
FP32 垂簾聽政,專用於存放與權重更新,因為低精度累加時細微梯度會被"四捨五入"擦除,導致誤差積累而停止學習。
FP8 使得在有限顯存下訓練兆參數模型成為可能,吞吐量隨之翻倍。
DPX 指令集:順手比大小
DPX 本質是英偉達在晶片裡焊死了一個"算完加法順手比大小"的快捷鍵。
想像在棋盤格上,從左上角走到右下角,每走一步都有代價,你想找代價最小的路線。於是你看看從上面來要花多少、從左邊來要花多少、從斜上方來要花多少,挑最便宜的那個。
注意這個動作的結構:先加,再比誰小。
整個棋盤有幾百萬甚至幾十億個格子,每個格子都要執行一遍這個動作。這就是動態規劃的日常。
H100 的DPX 把這兩步焊成了一步。之所以用"焊"這個字,是因為這確實是晶片上的硬體結構。
DPX 不需要像Tensor Core 那樣增加大型專用單元,只是在現有整數計算通路上添加了一個"順手比大小"的功能——晶片面積開銷很小,但收益巨大。
例如基因定序,一次要比對幾十億個鹼基對,每個鹼基對都要執行這個操作。省一條指令乘以數十億次,節省的時間極為可觀。
此外,H100 是全球第一款支援硬體級TEE 的GPU,由此開啟了隱私運算的新篇章。
TMA(Tensor Memory Accelerator):非同步資料搬運引擎
TMA 是H100 在SM 微架構層面最重大的變化之一,直接決定了Tensor Core 和Transformer Engine 能否跑滿。
簡單來說,TMA 就是英偉達在晶片上安了一個專職搬運工,讓幹活的線程不用再自己跑去倉庫搬資料。
GPU 的記憶體結構分為兩層:
1)全域記憶體(Global Memory/HBM)容量大(80GB),但離運算單元遠、存取慢,像一個巨大的遠郊倉庫;
2)共享記憶體(Shared Memory/SMEM)容量小(每個SM 最多228KB),但離計算單元近、存取快,像工位旁的小櫃子。
所有計算都必須先把資料從遠郊倉庫搬到工位小櫃子裡,算完再搬回去。搬資料本身不產生任何有用的計算結果,但搬不完就沒辦法算。
TMA 就是專職搬運模組,讓分工更精細。它理解張量的形狀,關鍵在於,可非同步執行。
TMA 還有一招殺手鐧:Multicast。
H100 引進了Thread Block Cluster(多個SM 組成一個叢集),TMA 不僅能把資料搬到發起請求的那個SM 的共享內存,還能將同一份資料同時抄送給叢集中的多個SM。
總結一下,
GPU 的核心矛盾是"算得快但搬得慢"。 A100 時代,幹活的人還得自己去搬貨,大家一起停下來搬完再開工。
H100 的TMA 則是專職快遞員。寫個地址貼上去,快遞員自行搞定,其他人繼續做自己的活。而且這個快遞員還懂張量的形狀,不管資料是幾維的,給個座標它自己就能找到。
如果說DPX 是"讓計算更快",一條指令幹兩條的活,那TMA 就是"讓搬運不再拖後腿",搬運和計算並行,互不耽誤。兩者協同,才讓H100 真正跑滿了算力。
從顯示卡供應商到AI 基礎設施的絕對統治者
2023年,英偉達徹底蛻變。從顯示卡供應商躍升為全球人工智慧基礎設施的絕對統治者,市值首次突破1兆美元。
財報連續三個季度大幅超出華爾街預期。資料中心業務收入取代遊戲業務,成為公司的絕對核心支柱。
從微軟、Meta、Google 等矽谷巨頭,到沙烏地阿拉伯、阿聯酋等主權國家,全球都在瘋狂囤積H100 晶片。由於台積電CoWoS 封裝產能受限,H100 變成一卡難求,單卡價格一度在二手市場上升到4萬美元以上。
幾乎所有主流大模型,如GPT-4、Llama 等,都在CUDA 架構上發展。即便AMD 的硬體參數更優,開發者也很難遷移,因為所有底層優化和算子庫都握在英偉達手中。
同時,英偉達開始透過軟體授權變現。硬體是一次性買賣,但軟體訂閱帶來的是源源不絕的現金流。
GTC 2023 上,黃仁勳喊出了那句著名的口號:"AI 的iPhone 時刻已經到來。"
2024 Blackwell(B200)-微張量縮放
3月GTC 大會,英偉達發表Blackwell(B200/GB200),透過NVLink-C2C 將兩塊晶片連為一體,即"雙芯一體"結構,電晶體數量暴增至2,080億顆。
而在軟體端,B200 依然呈現為一個統一整體。
我們可以從Tensor Core、CUDA、NVLink 三個維度分析B200。
第五代Tensor Core:支持FP4
B200 的Tensor Core 核心突破在於支持FP4。
從2017年第一代Tensor Core 支援FP16,到2022年H100 支援FP8,再到如今B200 的第五代Tensor Core 支援FP4。精度一路下探,算力一路飆升。
B200 的FP4 並非簡單的精度截斷,而是引入了微張量縮放(Micro-tensor Scaling)。
一句話,微張量縮放是一種資料壓縮與量化技術,讓每個數字變小,但不丟棄數字。
本質是動態範圍管理演算法與硬體層級縮放的協同,允許數十個元素組成的群組擁有獨立的縮放因子。
硬體層面,微張量縮放依靠Blackwell 的第二代Transformer Engine 與第五代Tensor Core 的物理電路協同完成。
第二代Transformer Engine 充當硬體調度中樞,負責動態範圍管理演算法,即時追蹤不同網路層和不同張量Tensor 數值分佈範圍,計算出最優公共放大/縮小比例。
第五代Tensor Core 則在物理層面直接增加了對FP4 的原生硬體支持,即硬體級縮放,負責執行。算術邏輯單元(ALU)能在接收FP4 資料和縮放因子的同時,直接在硬體層級執行矩陣乘法運算。
FP4 資料在計算時能瞬間對齊,恢復出高精度的動態範圍,從而在不丟失關鍵特徵的前提下實現算力翻倍,專為超大規模模型設計。
此外,硬體解壓縮引擎(Decompression Engine)的引進,變相提升了PCIe 和NVLink 的有效頻寬利用率。
CUDA 13.0
重點在於如何讓開發者無感地操控B200 這種複雜的"雙芯一體"結構。
儘管B200 物理上由兩顆晶片組成,但CUDA 透過NV-HBI(High-Bandwidth Interface)讓開發者看到的依然是一個擁有192GB 顯存的統一實體,無需手動處理跨晶片的資料同步。
NVLink 5.0 與NVL72
第五代NVLink 協定將單一GPU 的雙向頻寬提升至1.8 TB/s,是H100 的兩倍。兩顆晶片之間的頻寬更是高達10 TB/s,讓軟體層完全感知不到這是兩塊晶片。
在此基礎上,英偉達也推出了GB200 NVL72 機櫃,整合36顆Grace CPU 和72顆Blackwell GPU,形成了擁有1.4 EB/s 聚合頻寬的巨型資源池。
GB200 NVL72 不得不採用液冷設計,因為風扇已經不管用了。機櫃背面使用了5000 根銅線而非光纖,大幅降低功耗的同時,消除了光電轉換帶來的奈秒延遲。
至此,英偉達開始以"機櫃"為最小銷售單元。
SHARP 也進化至v4 版本,網路運算能力再次翻倍。
NIM (NVIDIA Inference Microservices) :軟體閉環
過去,企業想把一個開源大模型部署到自己的伺服器上,是一件極其痛苦的手工活。
工程師需要配置底層環境、安裝CUDA、編譯PyTorch、手寫加速腳本,最後還要自行封裝接口,整個過程往往耗費數週。
NIM 是一個預先安裝好的軟體容器,內部已調優好模型。企業只要買了英偉達的卡,直接一鍵即可運行,不再需要昂貴的演算法團隊逐項調優。
企業可以將NIM 部署在自己的內部網路中。借助AWS 等雲端服務上的NIM,企業能在享受最新模型的同時,保持對專有資料和應用程式的絕對安全控制——資料永遠不會洩漏給第三方模型供應商。
2024年6月,英偉達市值一度超越微軟和蘋果,成為全球市值最高的公司。
但同年,市場開始出現分歧。一方面,英偉達財報依然爆炸,利潤率高得驚人。
另一方面,矽谷開始擔憂AI 的投資報酬率。微軟、Google 砸了數千億美元買GPU,但加值服務收入未能覆蓋成本,導致英偉達股價在8至9月經歷劇烈波動,儘管業績仍保持著百分之幾百的成長。
2025年,英偉達市值一度衝破5兆美元大關,坐穩全球市值第一。
儘管年初受到DeepSeek R1 號稱減少了對頂級晶片依賴的短期衝擊,市值單日大幅蒸發,但市場隨後意識到AI 訓練對高性能算力的需求並未改變,英偉達股價反而更具剛性。
2025財年營收達1,305億美元,年增114%,資料中心業務佔接近80%。英偉達財報發表會已取代傳統經濟指標,成為美股風向標。
英偉達也參與了微軟與OpenAI 耗資5000億美元的Stargate 星際之門超算計畫。
2025年,英偉達其實有多個重要的策略方向轉變:
1)業務層面:面向主權國家出口晶片,建構主權AI;
2)技術路線:從生成式AI 轉向Agentic AI Swarm;
3)應用前沿:深耕機器人與數位孿生。
2025年,英偉達也發布了兩個少有人關注但極具分量的重磅計畫:GR00T 與Cosmos。
GR00T 是首個開源人形機器人通用基礎模型,Cosmos 是實體模擬平台,與Google、迪士尼等合作。
兩者結合,讓機器人在數位孿生世界中完成訓練,在電腦虛擬環境中模擬重力、摩擦力、流體力學,甚至材質的彈性與光影。
透過GPU 強大的算力,虛擬世界可以倍速運轉。現實中的一天,在虛擬世界裡可以跑完相當於幾十年甚至上百年的實體模擬過程。機器人的AI 大腦在極短的現實時間裡,經歷了數億次的摔倒與爬起。
相當於"人間一天,數位世界十年"。
人形機器人原型Isaac GR00T N1 的量產,標誌著英偉達正式成為全球機器人的"腦幹供應商"。
Jetson Thor 是專為機器人設計的車載級運算平台,已開始大規模量產,目標是成為所有會動的"智能體"的腦幹。
年底,英偉達正式預告下一代Rubin 架構。
2026 Rubin(R100)—— Agentic AI Swarms 超大規模推理
年初,英偉達交付Rubin R100,重新設計了CPU、GPU、NVSwitch、NIC、DPU、SuperNIC 六款關鍵晶片。英偉達將這個理念稱為極限協同設計(Extreme Co-design)。
第四代高頻寬記憶體HBM4 與12-Hi 堆疊
這裡涉及三個概念:記憶體牆、堆疊、HBM。而這三個詞彙恰好構成了"發現問題——提出思路——解決問題"的完整鏈路:內存牆是問題,堆疊是思路,HBM 是解法。
什麼是內存牆?
一句話,RAM/顯存的資料傳輸速度跟不上GPU/CPU 的運算速度。
例如GPU 一秒鐘能做100萬次乘法,但記憶體一秒鐘只能送來10萬個數字,GPU 剩下90% 的時間都閒置。
像ChatGPT 這樣的模型,參數動輒幾千億,每次回答問題都要把這幾千億個數字從記憶體搬出來算。有記憶體牆問題,GPU 算力再強也是一堆廢鐵。
堆疊:從物理層面打破記憶體牆
打破記憶體牆,最簡單粗暴的方式是,把記憶體和GPU 挨得越近越好,多放幾塊記憶體。
但GPU 周圍的主機板面積有限。於是工程師利用TSV(矽通孔)在記憶體晶片上打出數以萬計的微小孔洞,填入銅導線,然後將4層、8層、12層甚至未來的16層記憶體晶片像疊漢堡一樣垂直堆疊在一起。這就是堆疊。
HBM(高頻寬記憶體):堆疊裡的高速公路
HBM 是利用堆疊技術造出來的資料高速路,主要依靠TSV(Through Silicon Via,矽通孔)和矽中介層(解決外部水平連接)來實現。
HBM4(High Bandwidth Memory 4)是目前全球最先進的第四代高頻寬記憶體技術。而12-Hi 堆疊指的是利用先進封裝技術,將12層記憶體晶片像蓋樓一樣垂直疊放為一顆晶片。
單顆Rubin 晶片原生整合288GB 的HBM4 顯存,聚合頻寬達到了恐怖的22 TB/s。在處理主流10兆參數超大模型時,Rubin 能在不增加GPU 數量的前提下,將訓練效率提升3.5倍,推理成本降低10倍。
Vera CPU-原生支援FP8
先回顧CPU 與GPU 的本質差異。
CPU 將大量電晶體用於複雜的控制單元(Control Unit)和快取(Cache),而非運算單元(ALU)。
這種設計對邏輯複雜的操作系統非常有效,但面對AI 這種"呆板"的大規模數學運算,複雜的控制單元就是純粹的浪費,能效比極低。
GPU 採用SIMD(單指令多資料流)或更進一步的SIMT(單指令多執行緒)架構。一個控制單元指揮一大群計算單元。
就像廣播體操,教官(CU)喊一句"抬手",幾千個學生(ALU)同時做動作,極大節省用於"指揮"的晶體管面積,將其全部轉化為"幹活"的算力。
這就是GPU 在AI 任務上能效比遠超CPU 的根本原因。
但GPU 沒有能力運作作業系統,無法直接讀取硬碟文件,也不能處理外部網路請求,必須受僱於CPU,由CPU 派活、準備資料。
Vera CPU 並非處理Windows 資料的通用處理器,而是英偉達專為Agentic AI 定制的資料管家,以極低延遲和極高頻寬,穩定地給旁邊的Rubin GPU 餵食資料。
其本質為最大化GPU 算力吞吐而生的特化型處理器。捨棄傳統通用計算中的冗餘功能,用極致的內存頻寬、極低的單線程功耗和原生的低精度數據支持,換取在單一AI 計算場景下的絕對數據調度效率。
2022年以前,英偉達只造GPU。所有AI 伺服器都是買Intel 或AMD 的x86 CPU 作為主機板核心,再把英偉達的GPU 像插U 盤一樣插上去。於是就有了前文提到的PCIe 瓶頸。
到了Hopper(H100)時代,英偉達自研ARM 架構的Grace CPU,並推出GH200(Grace Hopper Superchip),第一次將自家CPU 和H100 GPU 封裝在同一塊超級主機板上。
而到了Vera,CPU 與GPU 之間的資料壁壘被徹底打通。
先前,GPU 內部已在以極低精度(如FP8)計算,但CPU 傳統上只擅長處理高精度FP32/FP16 資料。資料在兩者之間傳遞時需要頻繁進行格式轉換,白白浪費大量頻寬和時間。
Vera 是業界首款在硬體底層原生支援FP8 的CPU,可在資料餵給Rubin GPU 之前,直接在CPU 層級完成FP8 的預處理和對齊,徹底消除資料格式轉換的延遲開銷。
NVLink 6 與矽光子(CPO)
在物理層面上,英偉達已經觸及多個工程與材料學的極限。接下來要說的從銅線到矽光子CPO 的設計,正是這一極限的縮影。
矽光子與CPO 技術,是用極高的製造成本與災難等級的維護難度,換取打破物理極限的海量頻寬與極低功耗。銅線則以低廉的成本和極高的物理可靠性,在單機櫃內做最後的堅守。
但R100 已經觸及了銅線的極限。
上一代Blackwell 架構的機櫃中,為實現72顆算力晶片的全銅線互連,機櫃背板已塞滿五千多根極其沉重的粗壯銅纜。而2026年發布的NVLink 6 將單卡互連頻寬再次翻倍至3.6 TB/s。
若繼續沿用純銅方案,機櫃內的銅纜數量將直接破萬。不僅在實體空間上根本塞不下,極度密集的線纜還會徹底堵死整個機櫃的散熱風道。
更致命的是,在極高頻訊號傳輸下,銅線的電阻會導致嚴重的訊號衰減。為了把電訊號"硬推"過去,系統必須消耗龐大的電力。在單機櫃功耗已極度誇張的Rubin 時代,這種因訊號衰減帶來的無謂能耗完全不可接受。
因此,英偉達從銅線轉向矽光子CPO,與其說是主動選擇,不如說是一種不得不做的權衡與取捨。
NIM 2.0 與推理存儲
R100 的核心關鍵字是"Agentic AI"。前文介紹的是硬體層面對Agentic AI 的支撐,而NIM 則是硬體與軟體的協同。
NIM 2.0 是專為多智能體(Multi-Agent)協同計算設計的標準化軟體容器與調度總線,作用是實現不同AI 模型間的極速資料交互與算力分配。
在軟體層面將不同的AI 模型封裝好,以極低延遲互相調用,並全自動地將複雜任務拆解、分發。
推理儲存(Inference Storage) 則是針對大模型超長上下文(KV Cache)專門建構的實體多層記憶體架構,作用是徹底打破單卡顯存容量的實體上限。
模型推理時的上下文資料不再頻繁往返主存,而是在網路交換階段就被動態快取。
二者軟硬結合,解決了Agentic AI 在處理百萬字級複雜任務時的延遲與記憶體溢出瓶頸。
傳統推理服務框架主要針對單一模型(如讓單一LLM 持續產生文字)進行串列最佳化,而在Agentic AI 工作流程中,往往需要多個模型高頻並發協作。 NIM 2.0 正是為此重構的軟體基礎設施。
另外,代表未來方向的GR00T 與Cosmos 進化至2.0 版本。英偉達與BMW、特斯拉等工廠深度綁定,2026年已有數十萬台由GR00T 2.0 驅動的協作機器人透過英偉達Isaac 平台實現雲端連動。
至此,英偉達的發展脈絡已全部整理完畢。
後記
研究英偉達的過程中,我深深為其兩個面向折服:
1)黃仁勳的判斷力
2012年ImageNet 比賽,Alex Krizhevsky 憑藉兩塊普通的英偉達GTX 580 遊戲顯示卡,將影像辨識錯誤率從26% 降至15.3%,以領先第二名10.8% 的驚人優勢震驚世界。
2013年,黃仁勳將重心全面轉向CPU。
要知道,這距離Google 發表論文《Attention is All You Need》,提出了Transformer 架構,奠定現代LLM 大模型基礎還有4年時間。彼時晶片領域競爭還在更通用的CPU 領域。
此後,黃仁勳幾乎判斷了每個關鍵節點的選擇。
2006年,沒人知道CUDA 有什麼用,他每年燒掉5億美元堅持投入。
2017年,科學計算界仍在追求FP64 的絕對精確,他敢在最貴的晶片上劃出大片面積給當時只有少數人在用的矩陣運算做專用電路。
2018年,行動網路浪潮正盛,他果斷放棄手機晶片,把全部資源押注資料中心。
2022年,他親手把第一台DGX-1 送進了還名不見經傳的OpenAI 辦公室。
每一次決策,在當時看來都近乎瘋狂。
這種判斷力並非來自先知式的預言,而是來自對技術底層邏輯的深刻理解。黃仁勳始終在問一個問題:運算的未來是什麼?他的答案也始終如一:平行計算終將取代串行計算,專用效率終將戰勝通用性能。
這個信念貫穿了英偉達從CUDA 到Tensor Core,從NVLink 到Rubin 的整個發展脈絡。
2)英偉達的工程能力
英偉達的晶片迭代多次觸及物理極限,為此所做的創新、權衡與取捨,不僅涉及通訊、材料、光學領域,也延伸至量子物理學的邊界。
混合精度是一種權衡,用模糊換速度。
結構化稀疏是一種權衡,用裁剪換容量。
從銅線到矽光子是一種權衡,用製造難度換傳輸極限。
每一代架構的進步,都不是簡單地把數字做大,而是在精度與效率、通用與專用、成本與效能之間反覆尋找最優解。
這背後是一支極其龐大且深入底層的工程團隊。
cuDNN 裡的捲積演算法經過了十餘年手工彙編級優化;TensorRT 的算子融合精確到每一條kernel 的調度策略;TMA 的非同步搬運機制讓計算與數據傳輸真正實現了並行。這些看不見的底層功夫,才是CUDA 生態護城河最深處的基石。
更難得的是,英偉達在硬體和軟體之間搭建了一座極其堅固的橋樑。
從CUDA 到cuDNN,從TensorRT 到NIM,從晶片到機櫃再到整個資料中心,每一層都嚴絲合縫地咬合在一起。競爭對手即便在某一層追上來,也很難在整個堆疊上同時追平。
這不是一家只會造晶片的公司,而是一家從電晶體到軟體容器、從單卡到萬卡集群、從演算法到物理定律都在同時推進邊界的系統級公司。
回望英偉達的崛起之路,最讓我感慨的是一個樸素的道理:真正的護城河,從來不是某一項單點技術,而是無數個正確決策在時間軸上的複利。
CUDA 花了十年才等來深度學習的爆發。 Tensor Core 花了五年才等來Transformer 的統治。 NVLink 花了三代才從點對點連線進化為全互聯網絡。每一項技術在誕生之初都顯得超前甚至多餘,但當歷史的浪潮真正湧來時,它們恰好就在那裡。
這大概就是黃仁勳常說的那句話最好的註腳──
"我們公司距離倒閉永遠只有30 天。"
正是這種危機感,驅動英偉達在每個別人覺得"還早"的時刻,提前十年佈局。而當風口真正到來時,所有人才發現:跑道上只剩英偉達一個人。
最後,說幾句感想。
除了英偉達,研究過程中更讓我心生敬畏、甚至心潮澎湃的是人類所展現的智慧。
單顆B200 晶片上整合了2080億個電晶體。 2080億是什麼概念?銀河系中肉眼可見的恆星大約6000億顆,一顆指甲蓋大小的晶片上,電晶體數量已經是同一個數量級。
而這2080億個晶體管,不是一顆一顆焊上去的,是光刻出來的,用波長僅13.5 奈米的極紫外光,穿過極其精密的掩模版,將電路圖案投射到矽片上,一層一層地"印刷"而成。每一層的對準精度要求在亞納米級別,相當於從地球上用雷射瞄準月球表面的一枚硬幣。
當電晶體的閘極長度縮小到3 奈米甚至更小時,電子的行為不再完全遵循經典物理學,量子穿隧效應開始顯現,電子會像幽靈一樣穿過本應是絕緣體的薄壁。換句話說,晶片工程已經觸及了量子力學中測不準原理的邊界。
這也正是B200 不得不採用"雙芯一體"拼接方式的根本原因:單塊矽片已經逼近了當前光刻技術與物理定律的極限,繼續做大隻會讓良品率崩塌。
於是工程師換了一個想法。既然一塊做不到,就把兩塊完美拼在一起,再用NVLink-C2C 以10 TB/s 的頻寬縫合為一個整體,讓軟體層完全感知不到接縫的存在。
從量子物理到材料科學,從光學工程到封裝技術,一顆晶片的誕生匯聚了人類幾乎所有前沿學科的智慧結晶。
想起茨威格一本著作《人類群星閃耀時》。我們用沙子造出了思考的機器,又用這台機器去探索宇宙、模擬物理、甚至試著去理解意識本身。
這或許是比任何一家公司的崛起都更值得書寫的故事。

