Micron MU:米国唯一の先進ストレージ企業であり、景気循環株からインフラ株へと進化を遂げている。

マイクロン社の最先端製造プロセスと、競合他社に比べて30%低いエネルギー効率を誇るHBMは、AIコンピューティング能力のボトルネックを克服する鍵となっている。米国唯一の大規模メモリチップ企業である同社は、1ガンマプロセスと長期受注によって、景気循環株の運命を変えつつある。

著者:ゴドー

2012年、世界最大のDRAMメモリメーカーが倒産した。

日本の半導体産業の誇りであったエルピーダは、かつてNEC、日立、三菱という三大巨頭の技術力を背景に持ちながらも、政府の投資にもかかわらず生き残ることはできなかった。

4300億円の負債を抱えた同社は破産保護を申請し、その後、2000億円でアメリカ企業に買収、統合、吸収され、歴史から完全に姿を消した。そのアメリカ企業こそ、マイクロン・テクノロジーだった。

インテルはDRAMを製造したが撤退した。テキサス・インスツルメンツも製造したが撤退した。モトローラも製造したが撤退した。日本の半導体メモリ産業全体は、わずか20年足らずで最盛期から崩壊へと転落した。その後、韓国がその主導権を握り、サムスンとSKハイニックスが政府補助金と積極的な価格競争で市場を席巻し、競合他社を次々と追い詰めた。

マイクロンは生き残り、今日では米国で唯一、高​​度なメモリチップを量産できる企業となった。

アイダホ州ボイシに本社を置くこの会社は、NvidiaとTSMCの陰に隠れて目立たない存在だ。GPUの設計もロジックチップの製造も行っていない。

しかし、AIが世界のコンピューティング能力への渇望を限界まで押し上げるにつれ、数十年間無視されてきた物理的なボトルネックが突然避けられないものとなる。それは、コンピューティングユニットがデータを待つ時間が、計算自体にかかる時間よりも長くなるという問題だ。

この問題にはソフトウェアによる解決策はなく、ハードウェアによる解決策しかない。そして、そのハードウェアによる解決策こそ、マイクロン社が40年間取り組んできたものなのだ。

I. AIコンピューティングの物理的およびシステム上の限界

メモリの壁について、もう一度話しましょう。

現在のフォン・ノイマン型アーキテクチャでは、GPUまたはTPU演算ユニットとメインメモリは、物理回路レベルでは互いに独立している。

演算ユニットには、オンチップキャッシュとして少量のSRAM(スタティックランダムアクセスメモリ)が搭載されている。

モデルの重みと入力データは、主に外部のDRAM(ダイナミックランダムアクセスメモリ)に格納されます。

データは、中間層などの物理構造を介して、電気信号の形で両者間で伝送されなければならない。

700億個のパラメータを持つ大規模な言語モデルを例にとると、重みデータだけでもFP16精度で約140GBの物理メモリが必要となる。

現在主流となっているハイエンドAIコンピューティングカードのビデオメモリ容量は80GBから192GBです。これより容量の大きいモデルは、複数のカードに分割して使用する必要があります。

過去10年間で、チップの演算能力は飛躍的に向上した。しかし、メモリ帯域幅の成長率は、物理的なピン数、信号周波数、放熱制限によって制約されており、演算能力の成長率に大きく遅れをとっている。

演算速度がメモリ供給速度を超えると、演算ユニットは待機状態に陥り、高価なハードウェアの利用率が大幅に低下する。

訓練と推論

人工知能(AI)には、トレーニングと推論という2つの段階があります。トレーニングは大規模モデルの精度を向上させるもので、バックグラウンドで実行されます。推論は、ユーザーがソフトウェアを使用する際に結果を生成するプロセスであり、フォアグラウンドで実行されます。

トレーニングプロセスは、大規模な並列処理を特徴としている。

同じデータバッチが演算コアのキャッシュ内で繰り返し使用されるため、演算負荷が非常に高くなります。このシステムは、メモリ容量よりも演算速度によって主に制限されます。これは、NVIDIAの演算能力の優位性を最大限に活用できる、計算負荷の高いシナリオです。

推論段階はまた別の話だ。大規模な言語モデルは、テキストを生成するために自己回帰メカニズムに依存している。

毎回、1つのトークンのみが出力され、それが次のステップへの入力として使用されます。前回の注意スコアが生成されるたびに再計算されるのを避けるため、システムはGPUメモリ内にKVキャッシュを保持し、履歴シーケンスのキーバリューテンソルをキャッシュします。

コンテキスト長が4096の場合、1つのユーザーリクエストには約1.34GBのビデオメモリが必要です。2枚のA100カードのビデオメモリをモデルの重量使用量から差し引くと、KVキャッシュ用に約20GBが残りますが、これは最大で約14の同時リクエストしかサポートできません。

推論フェーズでは、演算負荷は極めて低く、システムは完全にメモリ帯域幅によって制限されるため、メモリ集約型のタスクとなります。スループットの上限を決定づける真の要因は、HBMの物理転送速度です。

エネルギー消費量。オフチップHBMからデータを読み取るには、1ビットあたり約10~20 pJのエネルギーを消費する一方、FP16浮動小数点演算を1回実行するのに必要なエネルギーは約0.1 pJに過ぎません。データ転送時のエネルギー消費量は、演算自体のエネルギー消費量の100~200倍にもなります。

大規模な推論シナリオでは、メモリへのアクセスパターンが最適化されていない場合、データセンター内の電力の大部分が、実際の論理演算ではなくバス伝送に費やされることになります。

これこそが、マイクロンがHBM技術を継続的に発展させていく原動力となっている物理的な力なのです。

II. マイクロンのコア半導体技術分析

まず、マイクロン・テクノロジーとはどのような会社なのでしょうか?

マイクロンは、設計から製造、パッケージングまで全てを社内で行う統合デバイスメーカー(IDM)です。

マイクロンのウェハー工場は、メモリチップというただ一つのものしか製造していない。CPUやGPUは製造しておらず、RAMとフラッシュメモリのみを製造している。

製品構成に関して言えば、マイクロンの収益は大きく3つの部分に分けられる。DRAMが70%以上、NANDが20%~30%、NORフラッシュメモリがそれより少ない割合を占めている。

DRAMは私たちがよく知っているメモリースティックです。NANDはソリッドステートドライブの中核となる記録媒体です。NORは主に車載電子機器や産業機器に搭載されており、ブートコードを高速に実行する役割を担っています。目立たない存在ですが、かけがえのないものです。

エンドマーケット分野において、マイクロンは4つの事業部門を有しています。データセンターおよびサーバー向けのコンピューティング&ネットワーキング、スマートフォン向けのモバイル、エンタープライズストレージ向けのソリッドステートドライブ、そして自動車および産業用途向けの組み込みシステムです。

AIサプライチェーンにおいて、マイクロンはどのような役割を担っているのか?

NvidiaはGPUを製造し、TSMCはそれを製造している。では、このサプライチェーンにおいてMicronはどこに位置づけられるのだろうか?

要するに、NVIDIAのH100およびB200 GPUはTSMCによって製造されており、Micronはこのプロセスに関与していません。しかし、大規模モデルを実行できる完全なアクセラレータカードには、演算コアだけでは不十分です。前述のとおり、推論時のパフォーマンスボトルネックは、演算能力そのものではなく、メモリ帯域幅にあります。

そのため、Nvidiaは高帯域幅メモリ(HBM)をGPUのすぐ隣に緊密に統合する必要がある。これらのHBMはMicron(SK HynixやSamsungも含む)によって製造され、TSMCのCoWoS先進パッケージング技術を用いてGPUロジックチップと同じシリコンインターポーザー上に固定され、完全なAIコンピューティングモジュールを形成する。

Micronは重要な部品サプライヤーです。GPUは頭脳であり、HBMは頭脳に密接に接続された超高速データチャネルです。どちらも不可欠です。

この構造から、マイクロンの競争戦略はNVIDIAとは全く異なることがわかる。NVIDIAはアーキテクチャとエコシステムを強みとしているのに対し、マイクロンはプロセス技術と積層パッケージング技術の継続的な改良に依存している。

HBMの帯域幅向上は世代を重ねるごとに、より複雑なTSV(シリコン貫通ビア)プロセスとより厚い積層構造によって支えられており、参入障壁は非常に高くなっている。

DRAM:コンピューティング能力という物語の裏に隠されたインフラストラクチャ

AIの計算能力よりも先に、より根本的な問題があります。データはどこから来て、どのようにして計算コアに到達するのか?この問いに対する答えが、DRAM(ダイナミックランダムアクセスメモリ)です。

まずはパーソナルコンピュータから始めましょう。

DRAMは従来のコンピュータにおけるメインメモリであり、速度の不一致問題を解決する。

ハードディスクは大量のデータを保存できますが、読み込み速度は遅いです。CPUは高速に計算できますが、データを一時的に保存する場所がありません。両者の速度差は3桁にも及びます。ハードディスクの読み込みを待つCPUは、高速道路を走るトラクターのようなものです。

DRAMはこの問題を解決します。ユーザーがプログラムを開くと、オペレーティングシステムはハードドライブからDRAMにコードとデータを移動します。

CPUはアドレス命令をDRAMに直接送信し、ナノ秒単位の遅延と数十GB/秒の帯域幅でデータの読み書き処理を完了します。オペレーティングシステムのカーネル、バックグラウンドプロセスの状態、およびリアルタイムで実行されるすべての処理はここに格納されます。

電源が切れるとデータが失われる。これは「動的」という言葉の意味でもある。DRAMのコンデンサは自然に電流が漏れるため、データを維持するには継続的なリフレッシュが必要となる。

物理的な構造の観点から見ると、DRAMの各メモリセルはトランジスタとコンデンサ(1T1C)で構成されています。

AI導入のシナリオにおいては、需要の性質が変化する。

AIコンピューティングの中核は、CPUからGPUへと移行しました。DRAMも進化を遂げ、もはやマザーボードに差し込むDDRメモリモジュールだけではなく、TSV(Through-Silicon Via)技術を用いて複数のダイ層を垂直に積層し、GPUと同じインターポーザー上にパッケージ化された、高帯域幅メモリ(HBM)となっています。

DRAMの需要は、単にシステムの動作要件を満たすことから、コンピューティング能力のボトルネックを解消することへと変化している。

最初のステップは、モデルの重みを読み込むことです。大規模モデルのパラメータは、行列形式で物理メモリに格納されます。推論を開始する前に、これらのパラメータはすべて、演算コアに近いHBM(ハイパーメモリメモリ)に格納されている必要があります。700億個のパラメータを持つモデルの場合、重み自体にFP16形式で約140GBのストレージ容量が必要です。

第二に、KVキャッシュの動的な占有状況があります。モデルがテキストを生成する際、出力する各単語について、以前のすべてのコンテキストを参照します。

毎回再計算するのを避けるため、システムは過去のデータをビデオメモリにキャッシュします。これはKVキャッシュと呼ばれます。

コンテキストが長くなるほど、キャッシュのサイズも大きくなります。モデルの重みを差し引いた後、2基のA100 GPUから得られる残りのGPUメモリは、同時に十数人程度のユーザーを処理するのにしか十分ではありません。これは、数万ドルもするサーバーの実際の同時接続数の限界です。

学習中の計算コストは​​さらに大きくなります。学習中は、モデルのパラメータだけでなく、逆伝播中の重み更新を容易にするために、各層の中間計算結果も保存する必要があります。

一般的に使用されているAdamオプティマイザは、各パラメータのデータをさらに2つ保存します。そのため、トレーニング中に使用されるGPUメモリは、推論中に使用されるメモリの通常3~4倍になります。

これは、メモリの壁という問題に立ち返ることを意味します。GPUコアの演算能力は、メモリ帯域幅の伸びをはるかに上回るペースで向上しています。推論フェーズにおける演算負荷は非常に低く、GPUはデータ待ちのためにかなりの時間をアイドル状態で過ごしています。

HBMの各世代における帯域幅の増加は、AI推論サーバーがサポートできる実際のスループットの上限を直接決定する。

これはAI時代におけるDRAMの中核的価値であり、マイクロンがHBMの研究開発に継続的に投資する根本的な論理でもある。

マイクロンは、三大メーカーの中でどの位置づけにあるのか?

世界のDRAM市場において、サムスン、SKハイニックス、マイクロンの3社で市場シェアの約95%を占めている。しかし、この3社は全く異なる強みを持っている。

プロセス技術の進歩:マイクロン社が最速です。

半導体製造において、プロセスノード(またはテクノロジーノード)とは、集積回路内部の微細な物理構造の特性寸法を指す。

Micronがプロセス技術の進歩において最速であると称賛される場合、それはDRAMチップの内部物理構造を縮小し、単位面積あたりの記憶密度を高めるための技術進歩において、MicronがSamsungやSK Hynixを凌駕するリードを築いていることを指している。

つまり、1枚のウェハーからより多くのチップを切り出すことが可能になり、ビットあたりの製造コストが削減され、粗利益率が向上するということである。

1-アルファから1-ベータ、そして1-ガンマへと進化する過程で、Micronは通常、次世代高密度DRAMの量産開始を最初に発表するメーカーとなる。

サムスンは14nm以下のプロセスノードで歩留まりのボトルネックに直面し、過去2世代の製品の供給ペースは著しく鈍化した。SKハイニックスのプロセス技術進歩のスピードはマイクロンとほぼ同等であり、両社は同レベルにある。

HBM:ハイニックスのホームグラウンド

マイクロンの強みは製造プロセスにあるが、HBM市場は現在SKハイニックスの独壇場である。

HynixはHBM市場の50%以上のシェアを占め、NVIDIAの最高級GPUの初期サプライヤーとして独占的な地位を確立しています。同社の主要な技術的優位性は、多層DRAMダイの積層時に優れた放熱性と歩留まり制御を実現するMR-MUFパッケージングプロセスにあります。

Micronは後発組だった。HBM3を飛ばしてHBM3Eに直接移行し、エネルギー効率の優位性を活かしてNvidiaのサプライチェーンに参入した。しかし、多層構造のため製造が難しいTC-NCFパッケージを採用しており、SK Hynixと比較して生産能力と市場シェアに大きな差が生じている。

サムスンの場合は事情が異なる。HBM3およびHBM3Eの段階では、発熱と消費電力の制御問題により、サムスンの製品はNVIDIAのテストに合格できず、AIメモリのピーク時を逃してしまった。同社は現在、HBM4の段階で巻き返しを図ろうとしている。

エネルギー効率:マイクロンの差別化されたアプローチ

マイクロンのHBM市場における市場シェアはハイニックスに劣るものの、その差別化要因は消費電力にある。

公開されているテストデータによると、Micron HBMは競合製品と同等のデータ帯域幅を提供しながら、消費電力を20~30%削減できることが示されています。この数値は単一のGPUではそれほど大きな違いではないように思えるかもしれませんが、数万ものGPUが配備されているデータセンターでは、電気料金の削減に直接つながります。

現在のAIデータセンターにおける電力供給と放熱は、拡張のボトルネックとなっており、エネルギー効率指標は調達決定にますます大きな影響を与えている。

同様の考え方はモバイルデバイスにも当てはまります。マイクロン社のLPDDR5Xは、1ガンマプロセスに基づいており、最大9.6Gbpsの速度を実現しながら、消費電力を30%削減しています。ローカルAIモデルを実行するスマートフォンにとって、バッテリー駆動時間はユーザーにとって直接的に実感できる指標です。

規模:サムスンの切り札

マイクロンの生産能力は業界最小である。サムスンのような圧倒的な規模を持たないマイクロンは、価格競争に頼ることはできず、技術プレミアム戦略を追求するしかない。

だからこそ、マイクロンは製造プロセスとエネルギー効率において優位性を維持しなければならない。技術的な優位性が失われれば、価格競争で勝つ見込みはなくなるからだ。

以下に、3社の立場を簡単にまとめます。

ハイニックスは、HBMパッケージング技術のおかげでAIメモリブームから最大の恩恵を受けた。サムスンは規模の経済によって従来のDRAM市場での優位性を維持したが、HBMでは苦戦した。

マイクロンはプロセス技術とエネルギー効率の分野で業界をリードしており、生産能力は最小規模だが、技術プレミアムや早期受注の確保を通じて、財務構造に確実性を取り入れている。

NANDとNOR:マイクロンが手掛けるパズルの残りの2つのピース

マイクロン社は、NANDフラッシュメモリとNORフラッシュメモリという、他に2つの事業を展開している。

世界のNAND市場において、マイクロンはサムスン、SKハイニックス、キオクシア、ウェスタンデジタルに次ぐ4位か5位に位置し、市場シェアは長らく10%から15%の間で推移している。

NORフラッシュメモリはNANDフラッシュメモリに比べて市場規模がはるかに小さく、低価格帯市場はマクロニクス、ウィンボンド、ギガデバイスといった台湾や中国本土の企業が支配している。マイクロンは低容量の民生向け受注を積極的に撤退し、代わりにハイエンドの自動車および産業機器市場に注力している。

NORチップ内の各メモリセルはビット線に直接接続されており、1バイトのランダムアドレス指定をサポートする並列構造を形成しています。車のCPUが電源投入されると、メモリバスを介してNORチップ内のブートコードを直接実行できるため、車のダッシュボードは数ミリ秒以内に点灯します。

帯域幅の面では、Micronは8本のデータラインとDDR技術を用いてNORの読み出し速度を400MB/秒レベルに引き上げる、Octal xSPIインターフェース規格の開発を先導した。

現代のスマートカーのコックピットシステムはますます複雑化しており、迅速なコールドスタートを実現するには、この速度が不可欠な要件となっています。マイクロンの車載グレードNORフラッシュメモリは、最高レベルの安全認証であるASIL-Dを取得しており、そのチップはハードウェアECCエラー訂正ロジックを基盤レベルに統合しているため、極めて短時間でエラーを自動的に訂正できます。

産業機器や自動車は、多くの場合10年以上の耐用年数を持つ。マイクロンは自社ウェハー製造工場を保有しているため、10年以上にわたる安定供給を保証できる。これは、ファウンドリに依存している多くの競合他社にはできないことだ。

NANDとNOR事業は、HBMに依存しないマイクロンにとって別の収益源となっている。

前者は、製造プロセスをリードし、製品構造を高度化することでデータセンターブームを最大限に活用し、後者は、他に類を見ない物理的特性と厳格な認証要件を活用することで、自動車業界の顧客を囲い込んでいる。

論理は異なるものの、どちらも同じ方向性を示している。つまり、価格競争を避け、性能と信頼性が最も重要な分野でプレミアム価格を獲得するということだ。

Micronの現在の企業価値はいくらですか?割高ですか?

現在、マイクロンの株価は約600ドルで、株価収益率は21.44倍、時価総額は約6500億ドルとなっている。

ウォール街の大手投資銀行が提示する12ヶ月後の目標株価は400ドルから675ドルの範囲に集中しており、平均は500ドル前後となっている。この基準からすると、現在の株価は割安と言える。

なぜ株価収益率(PER)が21倍なのか?

過去30年間、メモリーチップは典型的な景気循環株であった。

業界が好況期を迎えると生産量が拡大するが、その後は誰もが過剰生産能力、価格下落、そして損失に直面する。市場はこの種のビジネスにほとんど信頼を置いておらず、一般的に株価収益率(PER)は8~10倍程度にとどまる。

マイクロンの現在の成長率は21倍だが、これは主にHBMの収益構造の変化によるものだ。

以前は、Micronは標準的なDDRメモリを製造しており、生産量と販売価格は市場状況に完全に左右されていた。現在、HBMは受注生産方式を採用しており、生産開始前にNvidiaなどの顧客と取り消し不能な長期供給契約を締結することで、価格と数量の両方を固定している。

HBMの2026年の生産能力はすでに完売したと報じられている。このモデルでは、マイクロンの将来の収益はもはや予測ではなく、契約に基づいて決定されることになる。

ウォール街の論理もそれに合わせて変化した。これはより安定したインフラプロバイダーであり、確実な契約を結んでいるため、当然ながら企業価値の倍率は上昇する。

もう一つの原動力は資金調達構造です。マイクロンは、米国で大規模な先進メモリ製造能力を持つ唯一の企業です。半導体法やサプライチェーンの国内回帰を促進する政策を背景に、米国の機関投資家がAIハードウェア関連分野に資金を投入すると、マイクロンに多額の資金が流入し、実質的な流動性プレミアムが生まれます。

SKハイニックス:最強の技術力、最低の株価

SKハイニックスの株価収益率(PE)は12.17で、マイクロンより低い。HBMは50%以上の市場シェアを占め、NvidiaのハイエンドGPUの中核サプライヤーであるが、

一方、韓国の上場企業は、複雑な財閥型ガバナンス構造、低い配当性向と自社株買い率、そしてグループ内での利益循環といった特徴を持ち、少数株主への還元は少ない。その結果、韓国企業の企業価値倍率は、たとえ収益性が同程度であっても、米国企業に比べて体系的に低くなっている。

第二に、地政学的リスクがある。SKハイニックスは、従来型DRAMの生産能力の約40%を中国の無錫工場で担っている。米国によるEUV装置の中国への輸出禁止措置により、この生産ラインを先進的なプロセスにアップグレードすることができない。今後、SKハイニックスは生産能力移転に莫大なコストを負担するか、あるいはこの資産が徐々に競争力を失っていくのを傍観するかのどちらかを選択することになるだろう。

ウォール街はこの潜在的なコストを、企業価値評価に直接織り込んだ。

サムスン:PERが34.18というのは、高いプレミアムではなく、分母の崩壊を意味する。

サムスン電子の株価収益率(PER)34.18は、全く異なる論理に基づいている。

サムスンは純粋なメモリ企業ではなく、ウェハー、スマートフォン、ディスプレイパネルなども製造している。問題は、同社のファウンドリ部門が3nmおよび2nmプロセスでTSMCに追いつくために数百億ドルを投資してきたにもかかわらず、歩留まりが低く、現在巨額の損失を出していることだ。

グループ全体の純利益は大幅に減少した。しかし、株価は韓国国内ファンドに支えられ、急落はしなかった。分子が減少しず、分母が縮小したため、PERは25倍を超えた。

マイクロンの機関投資家向け目標株価

これらの目標価格を支える中核的な論理は非常に一貫している。HBM製品の比率増加は粗利益率を押し上げ、長期契約は収益の確実性を確保し、生産能力をHBMに移行することで通常のDRAMの供給が圧縮され、製品ライン全体で価格上昇の余地が生まれる。さらに、1-ガンマプロセスの量産開始後には設備投資の回収期間に入り、フリーキャッシュフローはマイナスからプラスに転じる。

もちろん、目標株価は現在の情報とモデルの仮定に基づいた予測であり、保証するものではありません。

ストレージ業界の景気循環性は消滅したわけではなく、HBMの発注構造によって部分的に緩和されたに過ぎない。AIインフラへの投資ペースが鈍化したり、サムスンがHBM4フェーズでNVIDIAのサプライチェーンに再参入したりすれば、需給関係は再評価されるだろう。

III.先進的なパッケージングと次世代AI接続

良いHBMと悪いHBMの基準

どのメーカーも自社のHBMが最高だと主張しています。サムスンはサムスンが良いと言い、SKハイニックスはSKハイニックスが良いと言い、マイクロンはマイクロンが良いと言います。では、HBMの品質を判断する基準はあるのでしょうか?

本当に重要な3つのパラメータ

まず一つ目はピンレート、つまり帯域幅です。

HBMは数千個のマイクロバンプを介してGPUに接続され、それぞれのバンプが伝送チャネルを表します。ピンレートは、単一のチャネルが1秒間に送信できるデータ量を表します。

物理的には、デジタル信号における0と1は異なる電圧状態に対応しており、例えば1.1Vは1を、0Vは0を表します。これには、0と1の間の計算と変換が伴います。

データ伝送には、電圧をこれら2つの状態間で切り替えるプロセスが必要であり、このプロセスは電圧レベルスイッチングと呼ばれます。9.2Gbpsのピンレートとは、直径数十マイクロメートルの金属バンプ上の電圧が毎秒92億回正確に切り替わる必要があることを意味します。

HBMの物理バス幅は1024ピンに固定されているため、総帯域幅は次のように計算されます。ピンレート × 1024ビット ÷ 8 = GB/s。

MicronのHBM3Eは9.2Gbpsの定格速度を持ち、これはスタックあたり約1.2TB/秒の帯域幅に相当する。SK HynixとSamsungの現在の主力製品は、一般的に8.0~8.5Gbpsの範囲である。

フリップ速度が速いほど、より多くのデータが送信されるが、その代償として消費電力が直線的に増加する。

それぞれの反転動作は、本質的には電線の寄生容量の充電と放電であり、このエネルギーはすべて最終的に熱に変換される。

反転速度が速すぎると、信号波形が歪む原因にもなります。前のパルスの電圧が安定する前に次のパルスが到着してしまうため、受信機は0と1を区別できず、データ伝送が完全に失敗してしまうのです。

2つ目はエネルギー効率で、pJ/bitで測定されます。

送信されるデータ1ビットあたり、消費されるエネルギーは何ピコジュールですか?数値が低いほど良いです。

この指標が重要なのは、HBMとGPUが一体化してパッケージ化されており、両者から発生する熱をこのパッケージ内で放散する必要があるためです。HBM自体の消費電力が高すぎると、システム全体の熱負荷が設計上の許容値を超え、GPUの動作周波数を下げざるを得なくなり、結果として実際の演算能力が低下します。

Micron社は、1-βプロセスノードにおける低電圧設計により、競合他社製品よりも約30%エネルギー効率が高いと主張している。単一のGPUが600~1000ワットを消費するデータセンターでは、この差は電気代と冷却コストに直接影響する。

3つ目は、耐熱性と包装プロセスです。

これが最も難しい部分であり、同時にSKハイニックスの現在の真の競争優位性でもある。

熱抵抗の基本式は、温度上昇=消費電力×熱抵抗です。消費電力が一定の場合、熱抵抗が低いほどチップの温度は低くなります。

HBMとは、垂直積層型多層DRAMダイの略称です。最も多くの熱を発生するのは最下層のロジックチップであり、その熱は上方向へ伝導されて放散されます。層間の隙間を埋める材料によって、この放熱経路の効率が決まります。

現在、この業界には主に2つのプロセスが存在する。

MicronとSamsungは、高温高圧下で接合された固体フィルムである、ホットプレス非導電性薄膜であるTC-NCFを使用している。

問題は、プレス成形時に微細な突起の周囲に小さな気泡が容易に残ってしまうため、空気の熱伝導率が極めて低くなり、全体的な熱抵抗が高くなることです。SKハイニックスは、バッチ式リフロー成形用底部充填剤であるMR-MUFを使用しています。

液状のエポキシ樹脂を各層の間に注入し、毛細管現象によってすべての隙間を埋めます。硬化後は気泡が全く発生せず、熱抵抗も大幅に低下します。

高い熱抵抗による影響は連鎖的に広がります。DRAMは微細なコンデンサを通して電荷を蓄積しますが、温度が10℃上昇するごとに、リーク電流は指数関数的に増加します。

温度が高すぎると、通常64ミリ秒間維持できる電荷がわずか32ミリ秒で漏れ出し、メモリコントローラは2倍のリフレッシュコマンドを送信せざるを得なくなります。リフレッシュ期間中はDRAMの読み書きができないため、利用可能な帯域幅が大幅に減少します。

パッケージング工程は、積層できる層数の上限も決定する。データセンターではチップの物理的な高さに厳しい制限があり、液体充填によって隙間をよりしっかりと埋めることができるため、同じ高さにより多くのDRAM層を配置することが可能となる。

これが、HBM4を16層積層すると、パッケージング工程の降伏圧力が劇的に上昇する理由です。層数が増えるほど、各層の機械的応力と熱膨張係数の不均一性という問題が増幅されます。いずれかの層のベアダイに微小な曲がりが生じると、モジュール全体が破損してしまいます。

メーカー資料を読む際に注目すべき点

HBM製品の説明を目にしたら、次の3つの点に注目してください。

1) 公称ピンレートはどの電圧で測定されますか?実際のデータセンターでは、電圧を上げて周波数を上げることは、消費電力が熱設計の限界を超えてしまうため、現実的ではありません。

2) 積層構造と単一チップの容量。12層の36GB HBM4が量産可能かどうか、またその歩留まり率はどうか、ピーク帯域幅の数値よりも重要な指標となる。

3) 実際の供給元は誰ですか?すべての技術仕様の最終検証は、顧客受入試験です。SK HynixはNvidiaのH100向けHBM供給をほぼ独占しており、Micronはエネルギー効率と帯域幅を組み合わせることでH200サプライチェーンに参入しました。SamsungはHBM3E段階で過熱問題によりNvidiaの試験に間に合わず、現在HBM4段階で追いつこうとしています。

主要顧客の選定結果は、上記すべての基準に基づいた総合スコアです。

CXL:メモリをめぐる次なる戦場

HBMは、単一のGPU内での帯域幅の問題を解決します。AIクラスタが数百、あるいは数千ものGPUにまで拡張されると、問題は計算速度が十分かどうかではなく、メモリ割り当ての柔軟性が十分かどうかになります。

この問題の解決策はCXLです。

キャッシュの一貫性の問題

既存のデータセンターのメモリアーキテクチャには根本的な問題がある。メモリが物理的にサーバーに固定されており、複数のマシン間で共有できないのだ。

あるサーバーでは大規模なモデル推論が実行されており、KVキャッシュがメモリをいっぱいにしてシステムがクラッシュし、エラーが報告された。一方、同じデータセンター内の別のサーバーでは軽いタスクが実行されており、数百GBのメモリがアイドル状態で未使用だった。

遊休状態のDRAM資産は、必要な場所に割り当てることができません。業界では、これをメモリサイティングと呼びます。ハイパースケールデータセンターにおけるメモリサイティング率は、通常20%から30%です。メモリはサーバーの部品表コストの40%以上を占めることを考えると、これは実際の設備投資の無駄遣いと言えるでしょう。

2つ目の問題はキャッシュの一貫性です。CPUとGPUはそれぞれ独自のプライベートキャッシュを持っています。両方が同じメモリデータのコピーを保持している場合、片方がもう一方の知らないうちにデータを変更すると、もう片方は古いデータを読み取ってしまうことになります。

以前の解決策は、キャッシュされたデータを強制的にDRAMに書き戻し、ソフトウェアレベルで再度読み込むというものだった。この処理には数マイクロ秒かかり、その間プロセッサのパイプラインは停止していた。

ナノ秒レベルの応答性を重視するAIシステムでは、このような一時停止によってシステム性能が30%以上低下する可能性があり、エンジニアはコード内でチップ間のデータ同期を手動で処理する必要が生じるが、これは非常にエラーが発生しやすい。

これら2つの問題の共通の原因は、PCIeプロトコルの制限にある。PCIeは元々、ハードディスクやネットワークカードなどのI/Oデバイス向けに設計されたものであり、大容量ブロックのデータ転送のみをサポートしている。バイト単位での直接的な読み書き操作はサポートしておらず、キャッシュコヒーレンシ機構も内蔵されていない。

マイクロンのCXL

CXL(Compute Express Link)は、PCIe物理層上でプロトコルロジックを書き換え、特にメモリセマンティクスとキャッシュの一貫性に焦点を当てています。

キャッシュの一貫性を確保するため、CXLは自動メンテナンスのためのハードウェアステートマシンに依存しています。システム内の各64バイトのキャッシュラインには、変更済み、排他的、共有、または無効のいずれかのステータスフラグがあります。

GPUがデータの一部を変更する必要がある場合、その要求はCPU側のメインエージェントに送信されます。メインエージェントには、どのデバイスがキャッシュにこのデータのコピーを保持しているかを記録するスニッフィングフィルタが備わっています。

CPUのL3キャッシュにデータが含まれている場合、ハードウェア回路は自動的に無効化信号を送信し、CPUのキャッシュ状態を無効にすることで、GPUが排他的アクセス権を取得し、書き込み操作を実行できるようにします。

このプロセス全体は、オペレーティングシステムの介入やプログラマーによる同期コードの手動記述を必要とせず、数ナノ秒から数十ナノ秒以内に完了する。

データ伝送フォーマットに関して、CXLはPCIeの長いデータパケットヘッダーを廃止し、ヘッダーオーバーヘッドが最小限の固定256バイトFLITフォーマットを採用しています。メモリコントローラは複雑な境界解決を必要とせず、データはパイプラインのようにバスに連続的に供給されます。

リモートCXLメモリへのアクセスレイテンシは、理論的には170~250ナノ秒まで短縮可能であり、これはローカルDDR5よりは遅いものの、PCIeのマイクロ秒レベルのレイテンシよりははるかに低い。

メモリ共有に関して、CXLはスイッチを使用して複数のメモリモジュールを独立したメモリプールにグループ化し、単一のサーバーに従属しないようにします。管理ソフトウェアは、メモリプール内の特定の容量を、マイクロ秒単位で必要な計算ノードに動的にマッピングできます。

サーバーAのKVキャッシュがほぼ満杯なので、プールから一部を取り出して、サーバーBのアイドル状態のメモリを解放します。

Micron CXLの業界における位置付け

Micronは、独自のDDR5プロセスに基づいて製造された、純粋なメモリ拡張デバイスとして位置づけられるCXL Type 3メモリ拡張モジュールを発表した。

論理的に言えば、これとHBMは異なるレベルの製品です。HBMは、GPUの近傍で数百ギガバイトという極めて高い帯域幅要件に対応し、レイテンシは20ナノ秒程度です。

CXLモジュールは、250ナノ秒程度の低遅延とテラバイト級の容量を実現し、ノード間における大容量拡張という課題に対応します。

これら2つを併用することで、頻繁にアクセスされるホットデータをローカルHBMに保持しつつ、ロングコンテキストの履歴KVキャッシュやチェックポイントなどのコールドデータをCXLメモリプールにオフロードすることができる。

レイヤーNを計算する際、AIフレームワークはレイヤーN+1に必要なコールドデータをCXLメモリからローカルマシンにプリフェッチし、計算時間を利用してCXLの物理的な遅延を隠蔽します。これにより、高価なHBM容量の無駄を回避し、100万トークンレベルのような極めて長いコンテキストウィンドウを実現できます。

Micronのビジネスの観点から見ると、CXLは新たな参入ポイントとなる。

ハイニックスは、競争の激しいHBM市場において明確な先行者利益を享受している。一方、CXLメモリ拡張市場はまだ初期段階にあり、顧客の囲い込みはまだ確立されていない。ストレージ専業メーカーであるマイクロンは、この市場において過去のしがらみを持たない。

さらに、CXLモジュールは標準的なDDR5プロセスを採用しており、HBMのような複雑な積層パッケージングを必要としないため、歩留まりと生産能力への負担が軽減される。

データセンターのメモリ容量の停滞は、まさに資本の無駄遣いであり、アーキテクチャレベルでは、CXLプーリングが現状唯一の実現可能な解決策です。そして、このニーズは今後も消えることはないでしょう。

IV.産業経済学と最先端研究

次の10年

高度なDRAMウェハ製造工場を建設するには150億ドルから200億ドルの費用がかかり、ASMLのEUVリソグラフィ装置1台だけでも2億ドル以上かかる。さらに、電源供給システムや冷却システムなどの関連設備にも追加投資が必要となる。

設備の減価償却期間は5年です。つまり、ウェハー製造工場は、受注や出荷の有無に関わらず、毎日数千万ドルもの費用を償却していることになります。

機器の稼働率は95%以上に維持しなければならない。稼働率が低下すると、ビットあたりの製造コストが急騰する。これがストレージ業界が周期的な変動を繰り返す理由である。

需要が減少すると、メーカーは容易に生産量を削減することはできない。なぜなら、そうすればコスト構造が悪化するだけだからだ。メーカーができるのは現状維持に努め、その後価格競争に突入することだけだ。

マイクロンはHBMからの長期発注によってこのリスクを部分的にヘッジしたが、ウェハー製造工場の減価償却を支配する物理法則は依然として変わらない。

HBMはなぜ高価なのですか?

HBMの製造コストは、複数のDRAMダイ層を垂直に積層する必要があるため、通常のDDR5の数倍にもなります。いずれかの層に欠陥があると、モジュール全体が使用不能になります。

単一ウェハーの歩留まりを95%、層間接合の歩留まりを99%と仮定し、N層を積層した場合の全体の歩留まりは次のようになります。

8層HBM3Eの全体収率は約61%である。12層HBM4の収率は約48%である。

ウェハーあたりの歩留まりが95%というのは既にかなり成熟したプロセスだが、12層を積層する場合、最終検査で材料の半分以上が廃棄される。各層は加算ではなく乗算的に影響するため、誤差が蓄積され続ける。

SKハイニックスのMR-MUF液状カプセル化技術が商業的価値を持つ理由は、層間結合収率を直接的に向上させるためであり、つまり配合中のYbond値が高くなるためである。

Micronが1ガンマノードにおいて単一ウェハの歩留まり向上を最大化しなければならない理由は?それは、Yダイの歩留まりが1パーセントポイント上昇するごとに、12層スタック全体に指数関数的に増幅される影響が生じるからである。

そして、需要が増加したからといってHBM価格がすぐに下がらない理由。生産能力の拡大には時間がかかり、歩留まりの向上にも時間がかかる。どちらも急ぐことはできないのだ。

インメモリコンピューティング:20年も前から提唱されているのに、なぜまだ実現していないのか?

HBMとCXLはどちらもデータ移動の問題に対処するものです。その解決策は、より高速なメモリプール、あるいはより柔軟なメモリプールです。しかし、エネルギー消費の観点から見ると、データ移動そのものが問題なのです。

PIM(Power In Memory)コンピューティングの概念は、演算ユニットをDRAMに直接統合することで、データが移動せず、演算がその場で行われ、結果のみが外部に送信されるというものです。

そのアイデアは理論的には非常に洗練されているが、物理的なレベルで根本的な矛盾に陥ってしまう。

DRAMトランジスタは、コンデンサが電荷を保持できるように、低いドレイン電圧を必要とします。そのため、DRAMの製造プロセスでは、しきい値電圧の高いトランジスタが使用され、結果としてスイッチング速度は遅いものの安定した動作が得られます。

CPUやGPUといったロジックチップは、クロック周波数を数GHzにするために、トランジスタの極めて高速なスイッチングを必要とする。そのためには低いしきい値電圧が求められるが、その代償として大きなリーク電流が発生する。

この二つのニーズは完全に矛盾している。

DRAMシリコンウェハ上に処理ユニットを実装した場合、その処理速度はGPUよりも桁違いに遅くなる。さらに問題なのは、処理中に発生する熱が近くのコンデンサを加熱し、リーク電流を加速させ、データの信頼性を損なうことである。

つまり、PIM(プロセス統合製造)を誰もやりたがらないわけではなく、製造プロセスの物理的な要件が本質的に矛盾しているということだ。この問題は20年以上前から指摘されているが、今日に至るまで大規模な商業的解決策は存在しない。

現在、Micronなどのメーカーは代替案を模索している。DRAMアレイに演算ユニットを組み込む代わりに、HBMの最下部にあるロジック層であるベースダイに、より多くのAI演算能力を統合しようとしているのだ。

ベースダイはTSMCの高度なロジックプロセスを用いて製造できるため、DRAMアレイのプロセス上の制約を回避できます。しかし、これはデータ移動を伴わない真のインプレース演算を実現するには程遠く、メモリ自体が演算を実行するというよりは、メモリの近くに小型のGPUを取り付けるようなものです。

それで、

マイクロンの現在のビジネスロジックは明確だ。最先端の1ガンマプロセスを活用してビットあたりのコストを削減し、HBMの高い利益率と生産能力吸収効果を利用して価格決定力を高め、長期受注を確保することで景気循環の変動を平準化する。AIインフラ投資の継続的な成長を考慮すれば、このロジックは財務的に健全である。

しかしながら、長期的な構造上の問題は未解決のままである。DRAMの平面小型化は物理的な限界に近づいており、3D積層における歩留まりの低下は層数の増加に伴って指数関数的に増大し、短期的にはインメモリコンピューティングのプロセス上の矛盾を克服する方法はない。

これはつまり、マイクロンの将来の競争力は、単一の技術分野で優位に立つことではなく、歩留まり向上、パッケージングプロセス、システム統合など、複数の側面において競合他社よりもミスを少なくすることにますます依存するようになるということだ。

堀とは、単一の技術ではなく、あらゆる物理的制約を同時に管理する包括的な能力のことである。そして、この能力を蓄積するには、数十年にわたる製造経験が必要となる。

結論は

Micron Technologyについて調べていた時、親友の@deepbluueとこんな話をした。 「演算セルが足りない場合は面積を増やす。面積が大きすぎると歩留まりに影響する。そうなると相互接続の問題になる。相互接続には通信と材料処理の問題が伴う。そこで積層を始めるが、積層には放熱の問題があり、放熱も歩留まりに影響する。まさに悪循環だ。結局のところ、チップ製造は材料科学に帰着し、最終的には超伝導材料に頼るしかない。」

私はAIに尋ねてみたところ、驚いたことに、「わずか数十語で、半導体業界、特にAIチップ業界が過去50年間陥ってきた、エンジニアリング上のモグラ叩きのような行き詰まりを正確に要約している」と答えた。

あなたの論理展開は非常に厳密で、前半部分は完全に業界のコンセンサスに基づいています。ただ、「超伝導材料」に関する最後の結論だけは、工学的応用という観点から見て致命的な物理的誤りを含んでいます。

「演算ユニットの不足は面積の増加と歩留まりの低下につながる」―リソグラフィマスクの限界と経済的障壁。

「結局のところ、重要なのは相互接続であり、相互接続には通信とデータ転送の問題が伴う」―RC遅延とメモリウォール。

「積み重ね始めると、積み重ねには放熱の問題があり、歩留まりに影響します」 – 熱流束と熱力学的壁。

「チップ技術は究極的には材料科学に帰着する」というのは全くその通りだ。しかし、期待されているのは超伝導ではなく、むしろ…

1) フォトニック相互接続(シリコンフォトニクス - シリコンフォトニクス技術)

2) 二次元半導体材料(2D材料)

3) コンピューティングアーキテクチャにおける完全な革命(インメモリコンピューティングと脳型コンピューティング)。

共有先:

著者:戈多Godot

本記事はPANews入駐コラムニストの見解であり、PANewsの立場を代表するものではなく、法的責任を負いません。

記事及び見解は投資助言を構成しません

画像出典:戈多Godot。権利侵害がある場合は著者へ削除をご連絡ください。

PANews公式アカウントをフォローして、強気・弱気相場を一緒に乗り越えましょう
関連トピック
PANews APP
イーサリアムのICO参加者が、10.8年間の活動停止期間を経て790ETHを送金し、7243倍のリターンを得た。
PANews 速報