作者:戈多Godot
2012年,全球最大的DRAM 記憶體製造商破產。
這家叫爾必達的日本公司,曾經是日本半導體工業的驕傲,背後站著NEC、日立、三菱三家巨頭的技術積累,政府出手注資,依然沒能撐住。
負債4300億日元,申請破產保護,隨後被一家美國公司以2000億日元的價格收購,整合,消化,徹底消失在歷史裡。那家美國公司叫美光科技。
英特爾做過DRAM,退出了。德州儀器做過,退出了。摩托羅拉做過,退出了。日本的整個半導體記憶體產業,從鼎盛到崩塌花了不到二十年。韓國人接過了接力棒,三星和SK 海力士用政府補貼和激進的價格戰橫掃市場,把所有競爭者逼到牆角。
美光撐下來了,成為今天美國本土唯一能大規模生產先進記憶體晶片的公司。
這家總部在愛達荷州博伊西的公司,活在英偉達和台積電的陰影之外。不設計GPU,不製造邏輯晶片。
但當AI把全世界對算力的渴望推到極限,一個被忽視了幾十年的物理瓶頸突然變得無法迴避——計算單元等待數據的時間,比計算本身更長。
這個問題沒有軟體解,只有硬體解。而那個硬件,剛好是美光做了四十年的東西。
一、AI計算的物理與系統限制
再談記憶體牆
在目前馮諾依曼架構下,GPU 或TPU 運算單元與主記憶體,在物理電路層面是相互獨立的。
計算單元內部包含小容量的SRAM(Static Random-Access Memory,靜態隨機存取記憶體)作為片上快取。
模型權重與輸入資料主要儲存在片外的DRAM(Dynamic Random Access Memory,動態隨機存取記憶體)。
資料必須透過中介層等物理結構,以電訊號的形式在兩者之間傳輸。
以一個700億參數的大語言模型為例,僅權重資料本身,在FP16 精度下就需要佔用約140GB的實體記憶體。
目前主流高階AI 計算卡的顯存容量在80GB 到192GB 之間,稍大一點的模型就必須切分到多張卡上運行。
過去十年,晶片的算力指數級提升。但記憶體頻寬成長受制於物理引腳數量、訊號頻率和散熱上限,增速遠遠落後於算力。
當計算速度超過記憶體供給速度,計算單元被迫進入等待狀態,昂貴的硬體利用率隨之大幅下滑。
訓練與推理
訓練與推理是AI 兩個階段。訓練是完善大模型準確度,在後台進行。推理是使用者使用時產生結果的過程,在前台進行。
訓練的特點是大量並行處理。
同一批資料在運算核心的快取中反覆使用,算術強度高,系統主要受限於運算速度而非記憶體。這是運算密集型場景,英偉達的算力優勢在這裡充分發揮。
推理階段則是另一回事。大語言模型生成文本依賴自回歸機制。
每次只輸出一個Token,再將其作為下一步的輸入。為了不在每次產生時重新計算之前的注意力分數,系統會在顯存中維護一塊KV Cache,快取歷史序列的鍵值張量。
在4096的上下文長度下,單一使用者請求就需要約1.34GB 記憶體。若將兩張A100 的顯存扣除模型權重佔用,剩餘約20GB 可用於KV Cache,最多只能支撐約14個並發請求。
推理階段,算術強度極低,系統完全受制於記憶體頻寬,屬於訪存密集型任務。真正決定吞吐量上限的,是HBM 物理傳輸速率。
能耗維度。從片外HBM 讀取資料的能耗約為10—20 pJ/bit,而執行一次FP16 浮點運算僅需約0.1 pJ。行動數據的能耗是計算本身的100到200倍。
在大規模推理情境下,如果訪存模式無法最佳化,資料中心的電力將大量消耗在匯流排傳輸上,而非實際的邏輯運算。
這正是美光持續推進HBM 技術的實體驅動力。
二、美光核心半導體技術解析
首先,美光科技是什麼公司
美光是一家IDM 整合元件製造商,從設計、製造到封裝全部自行包辦。
但美光的晶圓廠只生產一種東西:記憶體晶片。不做CPU,不做GPU,只做記憶體和快閃記憶體。
在產品結構上,美光的收入來源大致可以拆成三塊。 DRAM 佔七成以上,NAND 佔兩到三成,NOR 快閃記憶體佔比較小。
DRAM就是我們熟悉的記憶體條;NAND是固態硬碟的核心介質;NOR則主要藏在汽車電子和工業設備裡,負責快速執行啟動程式碼,存在感低但不可取代。
終端市場方面,美光設有四個業務部門。 面向資料中心和伺服器的運算與網路部門、智慧型手機導向的行動部門、企業儲存的固態硬碟部門,以及面向汽車和工業的嵌入式部門。
美光在AI 供應鏈裡扮演什麼角色
英偉達做GPU,台積電代工,這條鏈條裡美光在哪裡?
簡單來說,英偉達H100、B200 GPU 由台積電製造,美光不參與這個環節。但一塊能跑大模型的完整加速卡,單有運算核心是不夠的。前文已經解釋過,推理階段的效能瓶頸在於記憶體頻寬,而非算力本身。
因此,英偉達必須在GPU 旁邊緊密整合高頻寬記憶體HBM 。這些HBM 由美光(以及SK海力士、三星)生產,再透過台積電的CoWoS 先進封裝技術,與GPU 邏輯晶片固定在同一塊矽中介層上,組成完整的AI運算模組。
美光是關鍵零件供應商。 GPU 是大腦,HBM 是緊貼大腦的超高速資料通道,兩者缺一不可。
這個結構決定了美光的競爭邏輯與英偉達完全不同。英偉達靠著架構和生態建立護城河,美光靠的是製程和堆疊封裝技術的持續迭代。
HBM 每一代的頻寬提升,背後是更複雜的TSV 矽通孔工藝和更高的堆疊層數,門檻並不低。
DRAM:被藏在算力敘事背後的基礎設施
AI 算力之前,有一個更基礎的問題,資料從哪裡來,怎麼到達運算核心。這個問題的答案,就是DRAM(Dynamic Random Access Memory,動態隨機存取記憶體)。
從個人電腦說起
DRAM 在傳統電腦裡是主內存,解決速度不符問題。
硬碟存很多,但讀取慢。 CPU算得快,但沒地方臨時放資料。兩者之間差了三個數量級的速度。 CPU等硬碟,就像高速公路上跟著拖拉機走。
DRAM 解決的就是這個問題。使用者開啟一個程序,作業系統將其代碼和資料從硬碟搬入DRAM;
CPU接著直接向DRAM發送位址指令,以奈秒延遲、數十GB/s的頻寬完成資料的讀取與寫回。作業系統的核心、後台行程的狀態、正在運作的一切,都即時駐留在這裡。
斷電即失,這也是"動態"二字的意思、DRAM 的電容會自然漏電,需要持續刷新才能維持資料。
從物理結構來看,DRAM 的每一個儲存單元都是一個電晶體加一個電容1T1C。
進入AI 場景,需求性質變了
AI 運算核心從CPU 變成GPU。 DRAM 形態也隨之演變,不再只是插在主機板上的DDR 記憶體條,而是以HBM 高頻寬記憶體形式,透過TSV 矽通孔技術垂直堆疊多層裸片,與GPU 封裝在同一塊中介層上。
對DRAM的需求,也從滿足系統運作變成了突破算力瓶頸。
首先是模型權重的裝載。大模型的參數以矩陣形式儲存在實體記憶體中,推理開始前必須全部駐留在靠近計算核心的HBM 裡。一個700億參數的模型,FP16 格式下權重本身就需要約140GB 的儲存空間。
其次是KV Cache 的動態佔用。 模型產生文字時,每輸出一個詞,都要參考之前所有的上下文。
為了不每次都重新算一遍,系統會把歷史記錄緩存在顯存裡,這就是KV Cache。
上下文越長,快取越大。兩張A100 扣掉模型權重,剩下的顯存只夠同時服務十幾個使用者。這是一台幾萬美元的伺服器的實際並發上限。
訓練場景下消耗更大。訓練時不僅要存模型參數,還要保留每一層的中間計算結果,方便反向傳播時更新權重。
常用的Adam 優化器也會為每個參數額外記兩份資料。加在一起,訓練時所佔用的顯存通常是推理時的三、四倍。
這就回到了記憶體牆問題。 GPU 運算核心的算力成長遠快於記憶體頻寬的成長。推理階段的算術強度極低,GPU 大量時間處於等待資料的空閒狀態。
HBM 每一代的頻寬提升,直接決定了AI 推理伺服器能支撐的實際吞吐量上限。
這是DRAM 在AI 時代的核心價值,也是美光持續投入HBM 研發的底層邏輯。
三家寡頭,美光排第幾
全球DRAM 市場,三星、SK 海力士、美光三家合計佔據約95%的份額。但三家強項完全不同。
過程推進:美光跑得最快
在半導體製造中,製程(Process Node / Technology Node)是指積體電路內部微觀物理結構的特性尺寸。
當評估美光在製程推進上跑得最快時,是指美光在縮小DRAM 晶片內部物理結構、提升單位面積儲存密度的工程進度上,領先三星和SK 海力士。
也就是,單晶片晶圓能切出更多晶片,單比特製造成本下降,毛利率有支撐。
從1-alpha 到1-beta 再到1-gamma,美光通常是最早宣布量產新一代高密度DRAM 的廠商。
三星在14nm 以下節點遭遇過良率瓶頸,最近兩代交付節奏明顯慢了下來。 SK 海力士的製程推進速度與美光大體相當,兩者是同一梯隊。
HBM:海力士的主場
過程是美光的優勢,但HBM 市場目前是SK 海力士的主場。
海力士佔據HBM 市場超過50%的份額,是英偉達最高階GPU 的首發獨家供應商。核心技術優勢在於MR-MUF 封裝工藝,多層DRAM 晶片堆疊時的散熱和良率控製做得最好。
美光是後來者。跳過了HBM3,直接做HBM3E,靠能源效優勢切入英偉達供應鏈。但用的是TC-NCF 封裝,多層堆疊的製造難度更高,整體產能和市場份額與海力士差距明顯。
三星則是另一個故事。 HBM3 和HBM3E 階段,三星的產品因發熱和功耗控制問題未能及時通過英偉達的測試,錯過了這一輪AI 內存紅利最集中的時間窗口。目前正押注HBM4 階段的反超。
能源效率:美光的差異化切口
美光在HBM 市場的佔有率雖然落後海力士,但差異化角度在於功耗。
公開測試數據顯示,美光HBM 在提供相同數據頻寬的情況下,運行功耗比競爭對手低20%到30%。這個數字在單張GPU 上聽起來不大,但放到一個部署數萬張GPU 的資料中心,直接折算成電費。
目前AI資料中心的電力供應和散熱本身已成為擴張瓶頸,能源效率指標對採購決策的影響也越來越實際。
同樣的邏輯延伸到行動端。美光基於1-gamma 製程的LPDDR5X,速率達到9.6Gbps,同時整體功耗下降30%。手機跑本地AI 模型,續航力是用戶能直接感受到的指標。
規模:三星的底牌
美光的整體產能規模墊底。沒有三星那樣的絕對量體量,美光無法靠價格戰出牌,只能走技術溢價路線。
這也是為什麼美光必須在過程和能源效率上保持領先,一旦技術優勢消失,在價格競爭中沒有勝算。
簡單總結一下三家的位置。
海力士靠著HBM 封裝工藝吃到了AI 內存紅利最大的那塊;三星靠規模在常規DRAM 市場維持統治,但在HBM 上掉了鍊子;
美光在過程和能源效率上領先,產能規模最小,但透過技術溢價和提前鎖單,把確定性做進了財務結構裡。
NAND 與NOR:美光的另外兩塊拼圖
美光還有另外兩塊業務,NAND 快閃記憶體和NOR 快閃記憶體。
全球NAND 市場,美光排在第四或第五位,份額長期在10%到15%之間,排在三星、SK海力士、鎧俠和西部數據之後。
NOR 快閃記憶體是個比NAND 小得多的細分市場,低端份額被台灣和大陸的旺宏、華邦、兆易創新等廠商佔據。美光主動放棄了低容量消費級訂單,專注於車規級和工業級高端市場。
NOR 的每個儲存單元直接連接位元線,是平行結構,支援單字節隨機定址。汽車CPU 通電之後,可以直接透過記憶體匯流排在NOR 晶片執行啟動程式碼,這就是為什麼汽車儀錶板能在毫秒內點亮。
頻寬方面,美光主導推進了Octal xSPI 介面標準,用8根數據線加DDR 技術,把NOR 的讀取速率拉到400MB/s量級。
現代智慧汽車的座艙系統越來越複雜,這個速率是實現快速冷啟動的硬性要求。美光車規級NOR 通過了ASIL-D 最高安全等級認證,晶片底層整合了硬體ECC 錯誤校正邏輯,能在極短時間內自動修正錯誤。
工業設備和汽車的服役週期往往超過十年,美光憑藉自有晶圓廠能夠提供長達十幾年的持續供貨承諾,這是許多依賴代工的競爭對手做不到的。
NAND 和NOR 兩塊業務加在一起,構成了美光不依賴HBM 的另一個收入來源。
前者靠製程領先和產品結構升級吃資料中心紅利,後者靠物理特性不可取代和嚴苛認證門檻鎖定汽車工業客戶。
兩個邏輯,但都指向同一個方向,避開價格戰,在對性能和可靠性要求最高的地方賺溢價。
美光現在值多少錢,貴不貴
截至目前,美光股價約600美元,本益比21.44倍,市值約6,500億美元。
華爾街主流投資銀行給出的12個月目標價集中在400到675美元之間,平均值接近500美元,以這個標準,目前價格是低估的。
為什麼是21倍PE?
過去三十年,記憶體晶片是典型的周期股。
產業好的時候擴產,然後一起過剩、一起降價、一起虧損。市場對這生意沒什麼信心,通常只給8到10倍的PE。
現在美光到了21倍,根本原因是HBM 改變了收入結構。
以前美光生產標準DDR 內存,產出多少、賣什麼價,全看市場臉色。現在HBM 是按單生產,在投片之前就已經跟英偉達等客戶簽了不可撤銷的長期供貨協議,價格和數量都鎖死。
2026年的HBM 產能據報已全數售罄。在這種模式下,美光的遠期收入不再是預測,而是合約。
華爾街的邏輯也隨之改變。這是一家更接近擁有穩定合約的基礎設施供應商,估值乘數自然往上走。
另一個推力是資金結構。美光是美國本土唯一具備大規模先進儲存製造能力的公司。在《晶片法案》和供應鏈本土化的政策背景下,美國機構投資者配置AI硬體主題時,資金大量湧向美光,流動性溢價真實存在。
SK 海力士:技術最強,估價最低
SK 海力士的PE 12.17,低於美光,儘管HBM 市佔率超過50%,是英偉達高階GPU 核心供應商,但是,
一方面,韓國上市公司財閥治理結構複雜,股利支付率和回購率偏低,賺的錢往往留在集團內部循環,小股東也拿不到多少回報。在同等獲利水準下,韓國公司的估值乘數系統性低於美國同業。
二是地緣風險。 SK 海力士約有40% 常規DRAM 產能在中國無錫工廠。美國對華EUV 設備出口禁令意味著這條產線無法升級到先進製程,未來要麼承擔巨額的產能遷移成本,要麼看著這部分資產逐漸失去競爭力。
華爾街在估值時把這筆潛在成本直接扣進去了。
三星:34.18 倍PE 不是高溢價,是分母塌陷
三星電子的PE 34.18,邏輯完全不同。
三星不是一家純粹的儲存公司,同時做晶圓代工、智慧型手機、顯示面板。問題在於,代工部門為了追趕台積電在3nm 和2nm 製程上的差距,投入了數百億美元,但良率低下,這個部門目前在產生巨額虧損。
集團整體淨利大幅縮水。但股價有韓國本土資金托底沒有大跌,分子沒跌、分母縮小,PE 就到了25倍以上。
機構給美光的目標價
支撐這些目標價的核心邏輯高度一致。 HBM 產品佔比提升帶動毛利率走高;長期協議鎖定了收入確定性;產能向HBM 轉移壓縮了普通DRAM 供給,全線產品都有漲價空間;1-gamma 製程量產後資本開支進入回報期,自由現金流由負轉正。
當然,目標價是基於當前資訊和模型假設的預測,而不是保證。
儲存產業的周期性沒有消失,只是被HBM 的訂單結構部分平滑了。如果AI 基礎設施投資節奏放緩,或三星在HBM4 階段重新打入英偉達供應鏈,供需關係會重新定價。
三、高級封裝與下一代AI 互聯
HBM 好壞的標準
每家廠商介紹自己的HBM都說自己最好,三星說三星好,海力士說海力士好,美光說美光好。所以,有沒有什麼標準來判斷HBM 的好壞?
三個真正重要的參數
第一個是引腳速率,也就是頻寬。
HBM 透過數千個微凸塊與GPU 連接,每個凸塊就是一個傳輸通道。引腳速率衡量的是單一通道每秒能傳多少資料。
物理上,數位訊號的0和1對應不同的電壓狀態,例如1.1V代表1,0V代表0。也就是0 和1 的計算轉換。
傳數據就是讓電壓在這兩個狀態之間來回切換,這叫做電平翻轉。引腳速率9.2Gbps的意思是,一個直徑幾十微米的金屬凸塊上,電壓每秒要精確翻轉92億次。
HBM 物理匯流排寬度固定是1024個腳,所以總頻寬的演算法是:引腳速率× 1024位元÷ 8 = GB/s。
美光HBM3E 標稱9.2Gbps,換算下來單堆疊頻寬約1.2TB/s。 SK 海力士和三星目前主推的產品通常在8.0到8.5Gbps 之間。
翻轉越快,傳輸越多,但代價是功耗線性上升。
每次翻轉本質上是對導線寄生電容充放電,這些能量最終全變成熱。
翻轉太快也會導致訊號波形失真。前一個脈衝的電壓還沒落下去,下一個就來了,接收端無法分辨0和1,資料傳輸直接崩潰。
第二個是能效,單位是pJ/bit。
每傳輸1bit 資料消耗多少皮焦耳的能量,越低越好。
這個指標之所以重要,是因為HBM 和GPU 封裝在一起,兩者產生的熱量都要在這個封裝裡散掉。如果HBM 自身功耗太高,整個系統的熱負擔就會超出散熱設計上限,GPU 被迫降頻,實際算力打折。
美光宣稱憑藉1-beta 製程節點的低電壓設計,能效比競品高約30%。在單張GPU 功耗動輒600到1000瓦的資料中心裡,這個差距直接換算成電費和散熱成本。
第三個是熱阻和封裝製程。
這是最難的部分,也是SK 海力士目前真正的護城河。
熱阻的基本公式是:溫升= 功耗× 熱阻。功耗固定的情況下,熱阻越低,晶片溫度越低。
HBM 是多層DRAM 晶片垂直堆疊,底層邏輯晶片發熱最多,熱量必須向傳導才能散出去。層與層之間填滿什麼材料,決定了這條散熱路徑的效率。
目前行業主流有兩種工藝。
美光和三星用的是TC-NCF,熱壓非導電薄膜,固態薄膜加高溫高壓壓合。
問題是壓合時微凸塊周圍容易殘留細小氣泡,空氣導熱極差,整體熱阻偏高。 SK 海力士用的是MR-MUF,批量回流模塑底填料。
液態環氧樹脂注入各層之間,利用毛細作用填滿所有縫隙,固化後零氣泡,熱阻顯著較低。
熱阻高的後果是連鎖的。 DRAM 靠微觀電容儲存電荷,溫度每升高10攝氏度,漏電速率指數級上升。
溫度過高時,原本能維持64毫秒的電荷可能32毫秒就漏光了,記憶體控制器被迫加倍發送刷新指令。刷新期間DRAM 無法讀寫,等效於可用頻寬大幅縮水。
封裝製程也決定了堆疊層數的上限。資料中心對晶片物理高度有嚴格限制,液態填充能更緊密地填滿縫隙,相同高度下可以放更多層DRAM。
這就是為什麼HBM4 做到16層堆疊時,封裝製程的良率壓力會急遽上升。層數越多,每一層的機械應力和熱膨脹係數不一致的問題就越被放大,任何一層晶片發生微觀彎曲,整個模組就廢了。
讀廠商資料時看什麼
看到任何一家的HBM 介紹,直接找三個東西:
1)標稱引腳速率是在什麼電壓下測的。靠拉高電壓來推高頻率,在實際資料中心用不了,因為耗電量會突破散熱設計上限。
2)堆疊層數和單顆容量。 12層36GB 的HBM4 能否大規模量產、良率是多少,比尖峰頻寬數字更能說明問題。
3)實際供貨給誰。所有技術指標的最終驗證都是客戶驗收測試。 SK 海力士幾乎壟斷了英偉達H100 的HBM 供應;美光靠能源效率和頻寬的組合切入了H200 供應鏈;三星在HBM3E 階段因為發熱問題沒能及時通過英偉達測試,目前在HBM4 階段試圖追回。
大客戶的選擇結果,是上面所有參數的綜合評分。
CXL:記憶體的下一個戰場
HBM 解決單張GPU 內部頻寬問題。當AI 叢集擴展到數百乃至數千張GPU,就不是算得夠不夠快的問題了,而是記憶體分配得夠不夠靈活。
這個問題的解決是CXL。
快取一致性問題
現有資料中心的記憶體架構有一個根本性的問題,記憶體物理綁定在伺服器上,不能跨機器共享。
一台伺服器跑大模型推理,KV Cache把記憶體撐爆,系統崩潰報錯;同一機房裡另一台伺服器跑輕量級任務,幾百GB記憶體閒著沒人用。
這些閒置的DRAM資產無法調配給需要它的地方,在業界這叫做記憶體擱淺。超大規模資料中心的記憶體擱淺率通常在20%到30%之間,以記憶體佔伺服器BOM成本40%以上來算,浪費的是真實的資本開支。
第二個問題是快取一致性。 CPU和GPU各自有私有緩存,當兩者同時持有同一塊記憶體資料的副本,其中一方修改了,另一方不知道,就會讀到過期資料。
過去的解法是軟體層級強制把快取資料寫回DRAM 再重新讀取,這個操作要花掉幾微秒,期間處理器管線停擺。
在強調奈秒響應的AI系統裡,這種停頓會讓系統效能下降30%以上,還要求工程師在程式碼裡手動處理跨晶片的資料同步,極易出錯。
這兩個問題的共同根源是PCIe 協定限制。 PCIe 最初是為硬碟、網卡這類I/O 裝置設計的,只支援大塊資料搬運,不支援位元組級的直接讀寫,也沒有內建的快取一致性機制。
美光的CXL
CXL(Compute Express Link)是在PCIe 物理層之上重寫了協定邏輯,專門針對記憶體語意和快取一致性。
快取一致性這塊,CXL 依賴硬體狀態機自動維護。系統裡每一個64位元組的快取行都有一個狀態標記:已修改、獨佔、共享或無效。
當GPU 要修改一塊數據,請求到達CPU 端的主代理,主代理裡有一個嗅探過濾器,記錄哪些設備的快取裡有這份數據的副本。
如果CPU 的L3 快取裡有,硬體電路自動發出無效化訊號,CPU 的快取狀態強制變成無效,GPU 拿到獨佔權再執行寫入。
整個過程在幾到十幾奈秒內完成,不需要作業系統介入,不需要程式設計師手寫同步程式碼。
在資料傳輸格式上,CXL 拋棄了PCIe 冗長的資料包頭,改用固定256位元組的FLIT格式,頭部開銷極小,記憶體控制器不需要複雜的邊界解析,資料像管線一樣連續打入總線。
存取遠端CXL 記憶體的延遲,理論上可以壓到170到250奈秒,比本地DDR5 慢一些,但遠比PCIe 的微秒級延遲低得多。
記憶體共享這塊,CXL 透過交換器把多個記憶體模組組成獨立的記憶體池,不再從屬於任何單一伺服器。管理軟體可以在微秒層級把記憶體池中的特定容量動態映射給需要的運算節點。
伺服器A 的KV Cache 快撐爆了,直接從池子裡劃一塊過去,伺服器B 的閒置記憶體不再擱淺。
美光CXL 的產業地位
美光推出了CXL Type 3 記憶體擴充模組,定位是純記憶體擴充設備,基於自家DDR5 製程製造。
邏輯上,這和HBM 是兩個不同層次的產品。 HBM 解決的是GPU 旁邊那幾百GB 的極致頻寬需求,延遲在20奈秒等級。
CXL 模組解決的是跨節點的大容量擴展,延遲在250奈秒級別,容量可以做到TB 量級。
兩者配合使用的場景是,把頻繁存取的熱資料留在本地HBM 裡,把長上下文的歷史KV Cache、checkpoint 等冷資料卸載到CXL 記憶體池。
AI 框架在計算第N 層的時候,提前發出指令把第N+1 層所需的冷資料從CXL 記憶體預取到本地,用運算時間掩蓋CXL 的物理延遲。這樣既不浪費昂貴的HBM 容量,又能讓超長上下文窗口,例如百萬Token 等級成為可能。
從美光的商業角度來看,CXL 是一個新的切入點。
HBM 市場海力士先發優勢明顯,競爭激烈;CXL 內存擴展市場還在早期,客戶鎖定尚未形成,美光作為純存儲製造商,在這裡沒有額外的歷史包袱。
而CXL 模組使用的是標準DDR5 工藝,不需要HBM 那樣複雜的堆疊封裝,良率和產能壓力都更小。
資料中心記憶體擱淺問題是真實的資本浪費,CXL 池化是目前架構層面唯一可行的解法。這個需求不會消失。
四、產業經濟學與前沿研究
下一個十年
建造一座先進DRAM 晶圓廠,造價150到200億美元,其中,一台ASML 的EUV 光刻機就超過2億美元。配套的供電和冷卻系統還要額外投入。
設備折舊週期是5年。換算下來,晶圓廠每天一睜開眼睛就在攤銷數千萬美元,不管有沒有訂單、有沒有出貨。
設備利用率必須維持在95%以上。利用率一旦下滑,每比特的製造成本就會急劇攀升。這就是為什麼儲存產業的周期性那麼劇烈。
需求一旦下滑,廠商不能輕易減產,減產反而會讓成本結構更難看,只能硬撐,然後價格戰。
美光通過HBM 的長期訂單,部分對沖了這個風險,但晶圓廠折舊的物理規律不會改變。
HBM 為什麼貴?
HBM 製造成本是普通DDR5 的數倍,把多層DRAM晶片垂直堆疊。任何一層有缺陷,整個模組報廢。
假設單晶片晶片良率95%,層間鍵結良率99%,堆疊N層,總良率是:
8層的HBM3E 算下來總良率約61%。 12層的HBM4 約48%。
95% 單片良率已經是相當成熟的工藝,但堆到12層,還是有超過一半的材料在最終測試裡廢掉。每一層都是乘法,不是加法,誤差不斷累積。
為什麼SK海力士的MR-MUF液態封裝有商業價值,因為直接提升層間鍵結良率,也就是公式裡的Ybond 更高。
為什麼美光必須把1-gamma 節點的單片良率爬坡做到最快,Ydie每提升一個百分點,在12層堆疊下的效果會被指數級放大;
以及為什麼HBM 的價格不會因為需求增加,就能快速降下。產能擴張需要時間,良率爬坡需要時間,這兩件事都急不來。
存內計算:提了二十年,為什麼還沒來
HBM 和CXL 都是在解決資料搬運問題。要嘛快一點,要嘛把記憶體池搭建得更靈活。但從能耗角度來看,搬運本身就是問題所在。
存內運算PIM 概念是,把運算單元直接整合到DRAM 內部,資料不動,運算在原地發生,只把結果傳出去。
這個想法在理論上非常優雅,但卡在一個物理層面的根本矛盾上。
DRAM 的電晶體需要漏電極低,才能讓電容器存住電荷。為此DRAM 製程讓電晶體有高閾值電壓,開關慢,但穩。
邏輯晶片CPU、GPU 電晶體需要開關極快,時脈才能跑到幾GHz,為此要低閾值電壓,代價是漏電流大。
這兩個需求完全是矛盾的。
如果在DRAM 矽片上植入運算單元,這個運算單元比GPU 慢一個數量級。更麻煩的是,運算產生的熱量會烘烤旁邊的電容器,加速漏電,數據可靠性出問題。
所以PIM 不是沒人想做,而是製造工藝的物理要求本身就是矛盾的。這個問題提出來超過二十年,至今沒有大規模商業的解決方案。
目前美光等廠商探索的路徑是退而求其次。不在DRAM 陣列植入運算單元,而是在HBM 底部的邏輯層Base Die 整合更多AI 算力。
Base Die 可以用台積電的高階邏輯製程製造,繞過了DRAM 陣列的製程約束。但這距離真正意義上的數據不動、原地計算還差得很遠,更接近是把一塊小GPU 貼近了內存,而不是內存本身會計算。
所以,
美光目前的商業邏輯是清晰的,靠1-gamma 過程領先壓低單比特成本,靠HBM 的高利潤和產能吞噬效應拿定價權,靠長期鎖單平滑週期波動。這套邏輯在AI 基礎設施投資持續成長的背景下,財務上是成立的。
但更長期的結構性問題沒有解決。 DRAM 平面微縮接近物理極限,3D 堆疊的良率懲罰隨層數指數級上升,存內計算的製程矛盾短期內沒有突破路徑。
這意味著美光未來的競爭,越來越不是靠一個技術節點的領先,而是靠在良率工程、封裝製程、系統整合這幾個維度上同時比對手少犯錯。
護城河從來不是某一項技術,而是把所有這些物理約束同時管理好的綜合能力。而這種能力,是需要幾十年的製造經驗沉澱的。
寫在最後
研究美光科技時,我跟好哥們@deepbluue討論說了一段話「計算單元不夠,擴大面積,面積太大影響良品率,還是互聯,互聯有通訊和搬運問題,開始堆疊,堆疊有散熱問題,散熱又影響良品率。就是一個循環。晶片到最後就是材料學,最後就指望超導材料吧。
我問了AI,沒想到AI 說「短短幾十個字,精準地概括了過去五十年半導體工業,特別是目前AI 晶片所陷入的工程打地鼠(Whac-A-Mole)死局。
你的推導邏輯非常嚴密,前半段完全是行業共識,只有最後關於「超導材料」的結論在工程落地上存在一個致命的物理誤區。 」
「計算單元不夠,擴大面積,影響良率」-光刻掩模極限(Reticle Limit)與經濟牆;
「還是互聯,互聯有通訊和搬運問題」-RC 延遲(RC Delay)與記憶體牆;
「開始堆疊,堆疊有散熱問題,影響良率」-熱通量密度(Heat Flux)與熱力學牆「。
“晶片到最後就是材料學”,完全正確。只是,指望的不是超導,而是,
1)光子互聯(Silicon Photonics - 矽光技術);
2)二維半導體材料(2D Materials);
3)運算架構的徹底顛覆(存算一體與類腦運算)。




