2 枚のゲーム用グラフィック カードから 1 兆ドル規模の帝国に至るまでの 20 年間にわたる Nvidia の成長を 10,000 語で分析します。

  • 2006年:NVIDIAはCUDAを開発、初期はリスクの高い投資だったが、後にAI計算の鍵となる。
  • 2012年:ImageNetコンペティションでAlexNetがGPUを使用、AIにGPU加速革命をもたらす。
  • 2017年:VoltaアーキテクチャでTensor Coreを導入、行列計算と混合精度に焦点。
  • 2018年:TuringアーキテクチャでRT CoreとDLSSを追加、AIをグラフィックスに統合。
  • 2020年:AmpereアーキテクチャでTF32、構造的スパース性、MIGを特徴とし、訓練と推論を統一。
  • 2022年:HopperアーキテクチャのTransformer EngineとFP8がGPTのような大規模言語モデルを可能に。
  • 2024年:BlackwellアーキテクチャでFP4とマイクロテンソルスケーリングをサポート、効率向上。
  • 2026年:RubinアーキテクチャはAgentic AIに焦点、HBM4やVera CPUなどの革新。
  • 要因:ジェンセン・フアンの先見性、CUDAエコシステム、NVLink、エンジニアリング能力。
要約

著者:ゴドー

私たちの物語は競争から始まります。

フェイフェイ・リーは、かつてGoogleのバイスプレジデント、Google Cloud AI/MLのチーフサイエンティスト、そしてスタンフォード大学の教授を務めていました。しかし、彼女にはもう一つの顔があります。それは、ImageNetコンペティションの創設者です。

ImageNet コンテストは、正式には ILSVRC (ImageNet Large Scale Visual Recognition Challenge) と呼ばれ、コンピューター ビジョンの分野で最も影響力のある学術コンテストです。

2012 年の ImageNet コンテストでは、チューリング賞受賞者のジェフリー・ヒントン氏の教え子であるアレックス・クリジェフスキー氏が、AlexNet ニューラル ネットワークを使用して画像認識エラー率を 26% から 15.3% に削減し、2 位に 10.8 パーセントポイントの差をつけ、世界に衝撃を与えました。

重要な点は、AlexNetがスーパーコンピュータではなく、一般的なNVIDIA GTX 580ゲーミンググラフィックカード2枚のみを使用して学習されたことです。これは、AIがGPUアクセラレーションを大規模に使用した初めての事例です。それ以前の学習は主にCPUに依存していました。

この結果は、AI ディープラーニング + GPU = コンピューティング パワー革命を世界に宣言するに等しいものです。

研究者たちが GPU に注目するにつれ、C のような言語で複雑なアルゴリズムを記述できるのは NVIDIA の CUDA だけであることがわかりました。

黄仁勲『十年賭博』

2006 年に戻りましょう。当時、GPU の役割はゲーム グラフィックスのレンダリングだけでした。

しかし、ジェンセン・フアンはGPUを汎用コンピューティングツールにしたいと考えていました。彼は、ムーアの法則がCPUにおいては終焉に近づいており、シリアルコンピューティングの未来は必然的に並列コンピューティングになると固く信じていました。

そこで2006年、チーフサイエンティストのイアン・バック氏がCUDA(Compute Unified Device Architecture)の開発を主導しました。しかし当時、それが何のためにあるのか誰も知りませんでした。

CUDAをサポートするために、NVIDIAは各GPUチップに専用の演算回路を追加で組み込んでいます。これはチップ面積の増大、消費電力の増加、歩留まりの低下、そしてコストの高騰を意味します。

ごく少数の研究者を除いて、誰もそれを信じませんでした。ディープラーニングが爆発的に普及する前は、NVIDIAは世界中のトップクラスの研究室にグラフィックカードを無償で提供し、最適化を支援するエンジニアを派遣していました。

CUDAの開発費はNVIDIAに年間約5億ドルを費やしましたが、当時のNVIDIAの年間利益はわずか数億ドルでした。2008年の金融危機により、NVIDIAの株価は急落しました。

株価暴落のプレッシャーにもめげず、ジェンセン・フアンは10年間粘り強く取り組みました。彼はGPUが単なるゲームグラフィックのレンダリングではなく、汎用並列プロセッサであると固く信じていました。

2012年の転換期において、Intelは依然としてCPUの優位性を維持することに躍起になっていた。IntelはCPUの汎用性を長年確信しており、ニューラルネットワークは一時的な流行に過ぎないと考えていた。仮に演算処理が必要になったとしても、CPU命令セット(AVXなど)の拡張で解決できると考えていたのだ。

当時、AMD は買収による成長痛に深く陥っており、ソフトウェア投資を極めてケチっていたため、その AI ソフトウェア スタック ROCm は、使いやすさと安定性の面で、今日に至るまで CUDA に遅れをとっています。

2012年の夏、アレックス・クリジェフスキーはImageNetコンペティションで数百万枚の画像を処理するのに苦労していました。CPUがそれらを処理できないことに気づいたのです。彼はCUDAが非常に有用であることに気づき、C言語に似た言語で数千行のコードを書き、2基のGTX 580 GPUで実行しました。

この結果は世界中の学術界に衝撃を与えました。通常であれば数週間かかる実験が、GPUを使えばわずか数日で、しかも大幅に高い精度で結果が得られたのです。

モバイルインターネットを放棄し、GPUコンピューティングに完全移行

2013 年の GTC カンファレンスで、Jensen Huang は、会社の重点を GPU コンピューティングに完全に移行するという、当時ではほとんど無謀と思われた決断を下しました。

当時はモバイルインターネットの黄金時代であり、スマートフォンブームがピークを迎えていました。NVIDIAは携帯電話市場で苦戦を強いられましたが、携帯電話向けチップ分野に固執することはありませんでした。その代わりに、当時はまだニッチ市場であったデータセンターアクセラレーションコンピューティングに、全リソースを再び投入することを決意しました。

同年、CUDA は 5.0/5.5 の時代に入り、動的並列処理が導入されました。これにより、GPU は CPU に送り返すことなく独自に新しいタスクを開始できるようになり、通信の遅延が大幅に削減されました。

一方、NVIDIAは、ディープニューラルネットワーク向けに特化して設計されたCUDAディープラーニングライブラリ「cuDNN」の開発を密かに開始しました。cuDNNは、記述が最も困難な畳み込みアルゴリズムを基盤ライブラリ内に直接カプセル化しており、開発者はたった1つのコマンドで処理を完了できます。

ただし、AMD グラフィック カードでは、同じ機能を実現するには、何百行もの複雑な低レベル コードを記述する必要があります。

2014年、ディープラーニングフレームワークをめぐる熾烈な競争が始まりました。GoogleはTensorFlowをオープンソース化し、NVIDIAは即座に多数のエンジニアをオープンソースコミュニティに派遣し、CUDAとの互換性を継続的に最適化しました。TensorFlow 1.0がリリースされた時点で、NVIDIAグラフィックカード上でのパフォーマンスはAMDグラフィックカード上でのパフォーマンスを数倍上回りました。

「Nvidia グラフィック カードを購入」というのが業界の共通認識になり始めています。

今日、CUDAは開発ツールから業界標準言語へと進化しました。GitHub上の数億ものAIコードベースはCUDAプリミティブに依存しており、ほぼすべての大学の授業はCUDAに基づいています。つまり、新世代のエンジニアは卒業する前からNVIDIAエコシステムの「ネイティブ」と言えるのです。

GitHub上の数億ものAIコードベースはCUDAプリミティブに依存しています。大学の授業はほぼすべてCUDAの学習に基づいています。つまり、次世代のエンジニアは卒業する前からNVIDIAエコシステムの「ネイティブ」であるということです。

CUDA の上には、ミドルウェアとライブラリの広大なシステムがあります。

A. cuDNNとcuBLAS

ディープ ニューラル ネットワークと線形代数ライブラリは、10 年以上にわたって手動によるアセンブリ レベルの最適化が行われてきました。

B. テンソルRT

推論最適化エンジンは、演算子の自動融合、最適なカーネルの選択、量子化キャリブレーションなど、様々な機能を備えています。Blackwell時代に入ってからは、TensorRT-LLMは大規模言語モデルの展開における標準となり、FP4/FP8の高度な最適化を直接サポートしており、競合他社が追随することは困難です。

C. トリトン推論サーバー

クラウドネイティブ AI 推論の事実上の標準となっています。

ジェンセン・フアン、イーロン・マスク、OpenAI、「必要なのは注意力だけ」…2017年、AIの神が顕現した。

2017年、NVIDIAのVoltaアーキテクチャが誕生し、フラッグシップ製品であるTesla V100がリリースされました。このチップにはTensorコアが初めて搭載されました。

この瞬間から、AIコンピューティングはベクトル演算を超え、行列演算の時代へと突入しました。AIコンピューティングパワーは爆発的に向上し、AI元年を迎えました。

2016 年後半、ジェンセン フアンは、初期のアクセラレータ カードである DGX-1 を搭載した世界初のスーパー コンピューターを、当時あまり知られていなかった OpenAI オフィスに直接納品しました。

こうして、あの有名な写真が誕生しました。写真で腕を組んでいるのは、OpenAIの出資者であるイーロン・マスク氏です。このマシンは後にGPTシリーズのモデルの「祖先」となりました。

2017 年、一見無関係に思えるが、実際には今日の状況を形作る極めて重要な出来事が起こりました。Google が Transformer アーキテクチャを紹介する論文「Attention is All You Need」を公開したのです。

この論文は今日の大規模言語モデルの基礎を築き、AI が情報を処理する方法を完全に変え、ChatGPT、Claude、Gemini などの後の大規模モデルの作成に直接つながりました。

Transformer アーキテクチャでの計算はほぼ完全に行列乗算で構成されているため、計算能力に対する要求が非常に貪欲になります。

行列乗算、聞き覚えがありますか?そうです、NVIDIA の Tensor コアは行列乗算専用に設計されています。

こうしてAIの「カンブリア爆発」が始まった。

マクロ的な視点から見ると、Nvidia の優位な地位は次の 3 つの柱の上に築かれています。

1) Tensor Coreアーキテクチャ

ベクトル計算から行列計算へ、汎用計算からディープラーニング特化計算へと飛躍を遂げました。

2) CUDAソフトウェアエコシステム

NVIDIA の最大の強みはプログラミング言語だけではなく、cuDNN や cuBLAS を含む膨大なライブラリとツールのコレクションでもあり、これが移行に非常にコストがかかる原因となっています。

3) NVLink相互接続技術

GPU 間のコラボレーションのためのブリッジ。

簡単に言えば、3 つの関係は次のとおりです。Tensor Core はハードウェア イノベーション、CUDA はソフトウェア エコシステム、NVLink は相互接続チャネルであり、それぞれパフォーマンス、エコシステム、構成可能性に対応します。

Tensorコアは、Nvidiaが競合他社を圧倒し、AIの優位性を確立するための鍵です。Tensorコアを理解しなければ、現代のAIチップを理解することはできません。

Tensor コアは、GPU をグラフィック レンダリング デバイスから専用の AI コンピューティング プラットフォームへと完全に変革するもので、汎用性を犠牲にして、コア AI コンピューティングである行列乗算の極めて高いパフォーマンスを実現しています。

Tensor Core とは何ですか?

Tensor Core はさらに 3 つのコア概念に分類できます。

1) 行列乗算 2) 混合精度 3) アーキテクチャの進化

1) 行列の乗算

ベクトル計算から行列計算への移行は、Tensor Core のパフォーマンスの飛躍的な向上を支える中核ロジックです。

従来の CUDA コアは、A + B などのスカラー演算またはベクトル演算を実行します。同時実行の場合でも、各サイクルで処理できるデータ ポイントの数は限られています。

Tensor コアは、GPU 内に組み込まれた DSA (ドメイン固有アーキテクチャ) モジュールであり、汎用 GPU アーキテクチャ内に ASIC レベルの専用アクセラレーション ユニットを埋め込むことと同等です。

Tensor コアは、すべての種類の命令を実行するように設計されているのではなく、特定の演算、つまり行列の乗算と累算 (つまり、D = A × B + C) に特化しています。

簡単に言えば、ベクトル計算は行ごとに計算命令を出すようなものですが、行列計算はテーブル全体(4×4 行列)を直接出力します。

2) ミックスド・プレシジョン – ぼかしの芸術

AIの本質は確実性ではなく確率です。

画像に猫が写っているか犬が写っているかを判断する確率は、98.0001%でも98.0000000001%でも変わりません。しかし、精度の違いは計算効率に大きく影響します。

混合精度とは、結果の精度を損なうことなく、可能な限り低い精度を使用して最大限の効率を達成することを意味します。

A. 精度をどのように測定するのでしょうか?

ここで、浮動小数点数である FP (浮動小数点) という概念を導入する必要があります。

コンピュータは内部的に、すべての数値を0と1(ビット)で構成します。浮動小数点数は通常、以下の3つの部分で構成されます。

1) 符号ビット:数値が正か負かを示します。 2) 指数:数値の絶対値の範囲を決定します。 3) 仮数/分数:数値の精度、つまり小数点以下の桁数を決定します。

一般的な例としては FP32 が挙げられます。これは 32 ビットを使用して数値を記録するため、非常に正確ですが、大量のスペースが必要になります。

FP16 ではスペースが半分になり、速度が 2 倍になりますが、それに応じて精度と範囲が減少します。FP4 は精度が非常に低く、ピクセル アートに似ており、非常にぼやけた値しか記録できません。

コンピュータ サイエンスでは、これは本質的に、有効な情報コンテンツ (情報エントロピー)、計算スループット、および数値安定性の間の最適なソリューションを見つけることです。

B. 混合精度はどのように機能しますか?

a. 精度の低下

計算中、Tensor Core は元の 32 ビット入力を強制的に 16 ビットに変換します。

FP32: 1 符号ビット + 8 指数ビット + 23 仮数ビット。 FP16: 1 符号ビット + 5 指数ビット + 10 仮数ビット。

仮数が 23 から 10 に削減され、行列乗算段階での計算負荷が 4 倍以上軽減されました。

b. 累積保護

これは Tensor Core 設計の最も独創的な側面です。

入力は FP16 ですが、累積には FP32 が使用されます。加算には FP32 が使用されることに注意してください。

その理由は、乗算においては小さな誤差は安全ですが、数万回の加算で小さな値が継続的に破棄されると、誤差は急速に増幅してしまうからです。NVIDIAは高精度で累積することで、最終結果の精度を保証します。

c. 損失スケーリング - アンダーフロー対策

AIトレーニングにおいて、FP16を全面的に使用するとモデルがクラッシュします。これは、一部のキーデータが非常に小さく、FP16では表現できないためです。この問題はアンダーフローと呼ばれます。

解決策としては、計算前に損失値に大きな係数(例えば1024)を掛け、これらの微小な勾配をFP16が表現できる有効範囲内に強制的に押し戻します。そして計算後、損失値を1024で割って元の値に戻します。

C. 混合精度の限界 - マイクロスケーリングフォーマット(MX)

NVIDIA V100 は FP16 をサポートし、H100 は FP8 をサポートし、B200 はそれをさらに FP4 に削減します。

FP4はFP16よりも大幅に高速ですが、表現できる値は2⁴ = 16個だけです。画像には16個をはるかに超える色値が含まれているため、AIはゴッホの「ひまわり」と「星月夜」を区別することができません。

そのため、NVIDIA は Blackwell アーキテクチャに、ブロック浮動小数点を中核とするマイクロスケーリング フォーマットを導入しました。

簡単に言えば、AIネットワーク内の同じベクトルブロック内では、数値の大きさはしばしばほぼ同じです。各値を個別にスケーリングするのではなく、バッチ処理する方が適切です。バッチ内で絶対値が最大となる値を見つけ、それに基づいて共通のスケーリング係数を決定します。

最も困難な状況は、データセットに最大値が含まれ、残りは最小値である場合です。

まるで太陽とかすかなホタルが混ざった写真のようです。AIトランスフォーマーの特定のレイヤーでは、このような「外れ値」が頻繁に現れます。

これがまさに、Nvidia が Blackwell アーキテクチャで FP8 と FP16 を完全に放棄せず、ソフトウェア レベルでそれらをスムーズにすることに多大な労力を費やした理由です。

3) アーキテクチャの進化

これを覚えるのにとても便利な方法があります:

ボルタが誕生し、アンペアが主流となり、ホッパーが爆発的に普及し、ブラックウェルが今最も注目されています。

アーキテクチャ名が新しい年になるにつれて、サポートされる精度(FP の後の数字)が小さくなり、行列演算の規模が大きくなり、AI が人間に近くなります。

2017 Volta (V100): 極めて危険な賭け

2017 年の Volta の発売は、Nvidia の開発における重要な転換点となりました。

これまで、GTX 1080 Ti などの Pascal アーキテクチャは、主にゲームの視覚的な魅力を向上させることを目的としていました。

Volta の開発にあたり、Jensen Huang は、当時は非常に危険に思えたが、後から考えれば天才的なひらめきであったと判明する決断を下しました。それは、精度を下げて AI コンピューティングの効率を極限まで高め、GPU を汎用コンピューティング デバイスから専用の AI プラットフォームへと変えるというものでした。

2017 年以前は、気象シミュレーションや核爆発シミュレーションなどの科学計算分野では絶対的な精度が求められ、FP32 単精度や FP64 倍精度の計算能力を競っていました。

しかし、突如としてAIが爆発的に増加しました。そして、AIネットワークは驚くほど「ノイズ耐性」に優れています。

AIの学習は、子供に猫の見分け方を教えるようなものです。猫の耳の長さが3.1415926センチメートルだと教える必要はありません。「約3センチメートル」と言えば十分です。

NVIDIAはV100において混合精度を積極的に推進しています。演算にはFP16の半精度を使用し、累積にはFP32の高精度を使用することでエラーの蓄積を抑制します。これは、楷書から草書に書き直すようなもので、AIの精度はほとんど低下せずに、瞬時に速度が2倍になります。

当時、これは非常に危険な行為でした。非常に高価なチップに広大な領域を割いて、当時ほんの一握りの人々しか使っていなかった行列演算専用の回路を作るというのは、非常に、非常に、非常に危険な決断でした。

しかし、ジェンセン・フアン氏とNvidiaはAIの爆発的な成長に正しい賭けをしました。

これが、インテルなどの他の競合他社が今日まで遅れをとっている理由です。

2018年のTuring(T4) - ゲームグラフィックスの革命的な進歩:レイトレーシングとDLSS

この時点でも、チップの主な使用例は依然としてゲーム グラフィックスのレンダリングでした。

2018年、NVIDIAはTuringアーキテクチャ(RTX 2080 Ti)をリリースしました。これは、グラフィックカードの歴史において、全く異なる3種類のプロセッサが同じシリコンチップに搭載された初めてのケースでした。

まず背景を説明させてください。

これまで、ゲームグラフィックスのレンダリングにはラスタライゼーション、つまり2Dテクスチャマッピングが用いられていました。ベテランゲーマーなら、この手法はよくご存知でしょう。例えば、水の反射は事前に描画されてから適用されるため、プレイヤーの視点が変わっても影は完全に静止したままです。

レイトレーシングは、現実世界の光と影の効果をシミュレートします。ゲームでは、プレイヤーの視点と光源に応じて、光と反射がリアルタイムで変化します。

レイ トレーシングはこれまで不可能ではありませんでしたが、計算負荷が大きすぎて、ゲームがスライドショーのように遅延していました。

Turing アーキテクチャには、RT コア、CUDA コア、Tensor コアという 3 つのまったく異なるタイプのプロセッサがあります。

1) RTコア(レイトレーシングコア)

これはTuringの革新的な技術で、光線と三角形の交差(BVHトラバーサル)を計算するために特別に設計されています。その機能は極めて特異であり、レイトレーシング計算にのみ使用されます。これらの面倒な幾何学的演算を汎用コアから分離することで、効率が数十倍向上します。

2) CUDAコア(汎用コンピューティングコア)

従来のラスタライズレンダリングタスクは引き続き実行されます。

3) Tensor Core(混合精度コンピューティングコア)

INT8、INT4、INT1 のサポートが追加され、低精度の推論機能が導入され、コンシューマーグレードのグラフィック カード (RTX 20 シリーズ) に初めて Tensor Core が搭載されました。

ここには素晴らしい発明、DLSS (ディープラーニング スーパー サンプリング) が隠されています。

レイ トレーシングの計算は面倒すぎるため、最初に 1080P 画像をレンダリングし、次に Tensor Cores を使用してニューラル ネットワークを実行し、1080P 画像を 4K に「埋め込む」というロジックです。

これは、グラフィックス分野における AI 生成コンテンツの初めての大規模な応用であり、AI が従来のグラフィックス パイプラインの一部になり得ることを証明しています。

2018年頃、従来のパフォーマンス向上は限界に達しました。NVIDIAによるレイトレーシングの積極的な推進は、グラフィックカードの品質評価基準を実質的に再定義しました。AMDやIntelが追随したとしても、Tensorコアのような効率的なハードウェアを備えていませんでした。

言い換えれば、Nvidia は「アルゴリズム + ハードウェア + トレーニング データ」を網羅する包括的な封鎖を構築したことになります。

レイ トレーシングと Tensor コアの組み合わせにより、予想外にもメタバースとデジタル ツインへの扉が開かれました。

Tensor CoreはAIを活用してゲームのビジュアルを完成できるため、数枚の写真から直接リアルな3D空間を「構築」できるでしょうか?これは近年非常に人気が高まっているNeRF(Neural Radiation Field)技術で、わずか数秒で動画から3Dモデルを生成できます。

2020年のAmpere(A100) – 史上最も成功したAIチップ

「ユーザビリティ革命」という言葉は、A100をまさに言い表しています。A100以前、コンピューティング分野は3つの問題に直面していました。1) 精度の断片化:FP32は速度が遅く、FP16は管理が困難でした。2) 計算能力の断片化:トレーニングカードと推論カードは互換性がありませんでした。3) リソースの断片化:大規模モデルは十分に活用されず、小規模モデルは過負荷状態でした。

NVIDIAはA100に革命的な改良を加えました: 1) TF32 (TensorFloat-32) 2) 構造的スパース性 3) MIG (マルチインスタンスGPU)

これら 3 つの要素を組み合わせることで、1 つのチップの統合が可能になりました。

テンソル浮動小数点数-32 (TF32)

これは素晴らしい設計です。先ほども述べたように、AIコンピューティングはかつて気象シミュレーション、粒子シミュレーション、核爆発の軌道予測といったシナリオに高精度な手法を用いていたことを覚えていますか?

TF32 を使用すると、高精度の FP32 コードの記述に慣れている開発者は、コードを変更することなく、Tensor Core のファズ精度の高速化を直接享受できます。

TF32 は完全に新しいストレージ形式ではなく、計算用の中間形式です。

加速は FP32 を「切り捨てる」ことによって実現されます。FP32 は本質的に、計算精度と数値範囲のバランスをとるように設計された新しい数学形式です。

前回の記事で述べたように、コンピューター内部の数値はすべて0と1(ビット)で構成されています。浮動小数点数は通常、3つの部分で構成されます。1) 符号ビット(数値が正か負かを示す)、2) 指数(数値のサイズの範囲を決定する)、3) 仮数(または分数)、数値の精度、つまり小数点以下の桁数を決定します。

一般的な例としては、FP32 があります。これは、32 ビットを使用して数値を記録するため、非常に正確ですが、大量のスペースが必要です。FP16 はスペースが半分になり、速度が 2 倍になりますが、それに応じて精度と範囲が減少します。FP4 は精度が非常に低く、ピクセル アートに似ており、非常にぼやけた値しか記録できません。

TF32 の優れた点は、FP32 の範囲と FP16 の精度を組み合わせて 19 ビット形式 (符号ビットに 1 ビット、指数に 8 ビット (FP32 と一致)、仮数に 10 ビット (FP16 と一致)) を形成することにあります。

つまり、TF32はFP32とFP16をつなぐ架け橋なのです。素晴らしいと思いませんか?

ワークフローは以下のとおりです。TF32はビデオメモリから標準FP32データを読み取ります。Tensorコアはハードウェア回路内で仮数部を23ビットから10ビットに自動的に切り捨て、TF32形式に変換します。この形式で効率的な乗算が実行されます。すべての中間積は最終的にFP32精度で累算されます。ビデオメモリに書き戻されるデータは、標準FP32のままです。

さらに重要なのは、切り捨てプロセスが完全に自動で行われるため、数値アンダーフローの問題を自動的に処理できることです。

構造的スパース性

スパース性の本質は、重要でないピクセルの重みをゼロにすることです。猫の写真を認識するのと同じように、ほとんどのピクセルは決定的な役割を果たしません。

Nvidia は、連続する 4 つの重みごとに 2 つを 0 に設定する必要があることを規定しています。当初は 64 ビットのデータが必要でしたが、現在は約 34 ビットしか必要ないため、モデルのメモリ フットプリントがほぼ半分に削減されます。

例えば、グラフィックカードのビデオメモリが80GBの場合、400億(40B)のパラメータを持つモデルしか格納できません。構造化スパース性を有効にすると、700億(70B)、あるいは800億(80B)に近いパラメータを持つモデルをフィッティングできるようになるかもしれません。

さらに、パフォーマンスは倍増しました。インテンシブコンピューティングでは156 TFLOPS(1秒あたり156兆回の演算)を達成し、スパースコンピューティングでは312 TFLOPSを達成しました。

前述の従来の FP32 と比較して TF32 が約 10 倍改善されたことを加えると、特定の AI タスクを処理する場合、A100 は数年前の古いグラフィック カードよりも 1 世代高速であることがわかります。

4 つの重みすべてが重要であり、重要な情報が失われるのではないかという懸念については、まず、モデルがまだ「完成」していない場合は、重みを調整できます。

第二に、ニューラル ネットワークは耐障害性が極めて高く、小さな局所領域で情報が失われても、他のレイヤーがこの損失を補う方法を学習できます。

さらに、スパース性はランダムな削除によって実現されるのではなく、重みに基づいた剪定によって実現されます。

MIG (マルチインスタンス GPU)

MIGはチップスペース管理に使用され、物理回路レベルで単一GPUの「ハードパーティショニング」を実行します。その通り、物理パーティショニングです。

A100 では、MIG は GPU を最大 7 つの独立したインスタンスに分割し、各インスタンスに専用の Tensor Core とメモリ パスを持たせることができます。

パーティショニング方法は柔軟かつ多様で、例えば7つのスモールインスタンスに分割したり、1つのラージインスタンスと3つのスモールインスタンスに分割したりすることができます。ハードウェアには工場出荷時にこの「パーティショニング」機能が組み込まれていますが、購入後にソフトウェアコマンドを使用して、パーティショニングの方法や分割数をリアルタイムで制御できます。

A100 のハードウェア アーキテクチャでは、MIG は主に 3 種類のコア リソースを割り当てます。1) SM (ストリーミング マルチプロセッサ): CUDA コアや Tensor コアなどの計算コア。2) メモリ システム: HBM2 ビデオ メモリと L2 キャッシュが含まれます。3) 帯域幅 (パスウェイ): オンチップ データ転送チャネル。

各インスタンスは、それぞれ独立した固定メモリアドレス空間とコンピューティングパスを持ちます。つまり、インスタンスAがデータの読み書きを頻繁に行っている場合でも、インスタンスAが生成する電磁信号やバスの使用は、インスタンスBに一切影響を与えません。

この利点は明らかです:

  • まず、利用率が大幅に向上し、コストを削減できます。A100カードは数万ドルもするため、博士課程の学生1人が実験に使用するには高価すぎます。MIGを使用すれば、企業は7人のエンジニアが同じカードで同時に異なる実験を行うことができ、効率が7倍向上します。
  • 第二に、クラウドリース市場で非常に人気があります。クラウドサービスプロバイダーは、コンピューティングパワーをオンデマンドで柔軟に貸し出すことができます。

より広い視点から振り返ってみると:

  • Volta (2017): 汎用コンピューティング用の CUDA コアがもはや唯一の主役ではなく、マトリックス コンピューティング用の Tensor コアが AI 時代の至宝であることを証明しました。
  • チューリング(2018):精度が高いほど良いとは限らず、推論の時代には低精度のINT8/INT4が最適であることを証明しました。同時に、AIがコンピューターグラフィックスに貢献できることを証明しました。
  • Ampere (2020): 分割は非効率であり、統合こそが究極の解決策であることを証明しました。学習と推論は同じシリコンチップ(A100)に統合されており、スパース性とTF32が「総当たり方式による精度」よりも生産性が高いことを実証しています。

2022 年上半期に入る前に、まずは Nvidia に独占権を与えるもう 1 つの重要なイノベーション、NVLink を紹介する必要があります。

Tensor Core がチップの心臓部だとすると、NVLink は何万もの心臓を結ぶ大動脈です。

NVLink: GPU間の高速ポイントツーポイント相互接続プロトコル

NVLink は GPU 間の高速ポイントツーポイント相互接続プロトコルであり、GPU 間に高速道路を構築して CPU をバイパスして直接通信できるようにします。

NVLink の唯一の目的は、PCIe のボトルネックを解消することです。

PCIe ボトルネックとは何ですか?

PCIe (Peripheral Component Interconnect Express) は、コンピューターのマザーボード上の汎用バスで、元々は CPU がグラフィック カード、サウンド カード、ネットワーク カード、ハード ドライブなどのさまざまな周辺機器に接続できるように設計されています。

AI シナリオでは、ボトルネックは主に次のものに反映されます。

1) 帯域幅不足。最先端のPCIe 5.0 x16の理論上の帯域幅は約63GB/sと、一見高速に聞こえますが、H100のメモリ帯域幅は3,350GB/sにも達します。これは、GPUが内部では非常に高速な計算を実行しているものの、データの入出力速度は内部計算の50倍も遅いことを意味します。

2) 高いレイテンシ。PCIeデータ転送にはCPUの介入が必要です。データはまずグラフィックカードAからCPUに転送され、その後CPUによってグラフィックカードBに転送されるため、大きなレイテンシが発生します。

なぜこのようなボトルネックが発生するのでしょうか? 主な理由は、PCIe が元々汎用的に使用できるように設計されていたことです。

余談ですが、汎用技術とAI特化技術のトレードオフは、NVIDIAの台頭を通じて一貫して存在し、NVIDIAがIntelを追い抜くことができた主な理由でもあります。Intelの強みは、強力で汎用性の高いCPUにありますが、まさにこれがAIコンピューティングのボトルネックとなっているのです。

Nvidia の台頭は、まさに AI コンピューティングの専門化に賭ける勇気を持ち、それが正しい賭けだったからだ。

物理的な限界、プロトコルのオーバーヘッド、トポロジの不整合という3つのより専門的な側面から、汎用性と特化性のトレードオフをより深く理解することができます。1) トポロジの不整合。PCまたはサーバーアーキテクチャでは、すべてのPCIeレーンは最終的にCPUに収束します。

CPUは交通の環状交差点のようなもので、すべての車両がCPUの周りを回らなければなりません。たとえ高性能なGPUを搭載していても、CPUが処理能力の要求に追いつかなかったり、CPUに接続された帯域幅が飽和状態になったりすると、データ交換は遅くなります。これがCPU依存のボトルネックです。

2) プロトコルのオーバーヘッド。データパケットを送信する際、PCIeはメッセージヘッダーやチェックサムなどの追加情報を必要とします。送信が完了すると、CPUが後続のロジックを処理できるように、「割り込み要求」をCPUに送信する必要があります。

3) 物理的干渉。表皮効果 - 周波数が高くなるほど、電気信号は電線の表面を流れる傾向が強くなり、抵抗が増加して信号が減衰します。

NVLink はどのようにして PCIe のボトルネックを解消するのでしょうか?

先ほどの発言に戻りますが、NVLinkの唯一の目的はPCIeボトルネックを解消することです。どのようにしてこれを実現するのでしょうか?順を追って見ていきましょう。

1) トポロジーの再構築

NVLink は、CPU とシステム メモリを完全にバイパスして、GPU 間の直接的なポイントツーポイント通信を可能にします。

2) 極めて簡素化されたプロトコル

NVLink はメモリのような転送プロトコルを使用します。このプロトコルは、プロトコル オーバーヘッドが非常に低く、PCIe よりもペイロード率がはるかに高くなります。

3) 物理層のアップグレード: マルチチャネル並列処理と高帯域幅

NVIDIAはH100チップの背面に18個のNVLinkリンクを高密度に搭載し、合計900GB/秒の双方向帯域幅を実現しています。一方、PCIe 5.0 x16では63GB/秒に過ぎません。NVLinkの速度はPCIeの14倍以上です。

4) マルチGPU統合: メモリプーリングとNVSwitch

Nvidiaはケーブルだけでなく、専用のスイッチチップであるNVSwitchも開発しました。サーバー内部では、すべてのGPUがこのNVSwitchに接続されています。

NVLinkネットワーク:ポイントツーポイントから完全接続まで

さらに、NVLinkは複数のGPUを統合的に接続し、より大きなモデルをロードできます。これを理解するには、さらに3つのハードコアな次元が必要です。

1) NVSwitch – 高速道路から高架まで

NVSwitchはGPUチップに統合されておらず、GPU基板上に搭載された独立したスイッチチップです。NVLinkが高速道路だとすれば、NVSwitchは高架道路と言えるでしょう。

A100以前は、GPUは主にポイントツーポイント接続されていました。H100以降、NVSwitchの導入により、GPUはポイントツーポイント通信からネットワーク時代へと移行し、複数のカードをより大きな全体に接続し、より大きなモデルをロードできるようになりました。

ポイントツーポイント通信の制限を想像してみてください。カードが 8 枚あり、カード A とカード B は NVLink を介して物理的に接続されていますが、カード A がカード D と通信したい場合、カード B とカード C を仲介として経由する必要があり、それらの帯域幅を消費します。

H100を例に挙げると、GPUの底面には18個の第4世代NVLinkリンクがあり、マザーボードのNVLinkバックプレーンに接続されています。8枚のカードには、専用のNVSwitchチップが4~6個搭載されています。各GPUのすべてのNVLinkパスは、他のカードに直接接続されるのではなく、これらのスイッチに直接接続されています。

このトポロジにより、マザーボード上の CPU または PCIe バスを経由せずに、任意の 2 枚のカード間の通信が保証されます。

より技術的に言えば、NVSwitch のコアとなる技術仕様は、非ブロッキング全二重帯域幅であり、これにより、どの GPU も同時に最高速度で別の GPU と通信できるようになります。

2) ネットワーク コンピューティング (SHARP) - スイッチがデータ転送中に計算を実行できるようにします。

ネットワーク コンピューティングは、コンピューター通信の基本的なロジックを変えた NVIDIA のもう 1 つの画期的なテクノロジです。ネットワーク スイッチは、単にデータを移動するだけでなく、送信中に直接数学的計算を実行します。

大規模な AI モデルのトレーニングでは、勾配集約 (All-Reduce) という、何百万回も繰り返されるアクションが 1 つあります。

簡単に言えば、勾配集約により、トレーニングに関与するすべての GPU が計算結果を交換できるようになり、最終的に各カードにまったく同じ集約された最新データが含まれるようになります。

勾配集約は、ブロックチェーンにおける分散コンピューティングに似ています。その名前が示すように、主に「勾配」と「集約」という2つのステップで構成されます。

大規模モデルのトレーニングには並列コンピューティングが不可欠です。各グラフィックカードはデータの一部を受け取り、それぞれの部分の誤差方向、つまり勾配を計算します。

各カードは異なるデータを参照するため、計算される勾配も異なります。各カードを直接更新すると、異なるカード上のモデルは完全に間違った方向に進んでしまいます。

そのため、重みを更新する前に、すべてのカードの勾配を合計し、平均を計算する必要があります。すべてのカードがこのグローバル平均勾配を受け取った後、8枚のカード全体のモデルが常に同一になるように、カードは同期的に更新されます。

勾配集約の具体的な計算方法について。

A100は、当時最も帯域幅効率の高いアルゴリズムであったRing All-Reduceを採用しています。このアルゴリズムはデータをN個の断片に分割し、リレーのように転送します。

SHARPは、ツリー状の集約(Tree All-Reduce)アプローチを採用しています。これは、NVIDIAが現在積極的に推進しているソリューションで、データがツリーの根のように層ごとに収束します。GPUはデータを最初の層であるNVSwitchに送信します。SHARPのテクノロジーは、スイッチチップが複数のGPUからデータストリームを受信すると、加算演算を直接実行し、その結果を各GPUチップに送り返します。

勾配集約 (All-Reduce) が AI の生命線である理由は何ですか?

GPU クラスターの品質を評価する基準は、1 枚のカードの速度ではなく、カードの数が 1000 枚に増加したときに、勾配集約時間を数ミリ秒以内に制御できるかどうかです。

GPUの演算能力は強力(H100など)だが、ネットワークが弱い場合、GPUは処理時間の70%を勾配集約の実行に費やしていることがわかります。つまり、データの待機時間であり、実際にAI計算を実行する時間はわずか30%です。これは通信制約と呼ばれるものです。

NVLink、NVSwitch、SHARP などのテクノロジの存在は、本質的に、勾配集約のための最速のチャネルを提供するためです。

次に、2022 年には、NVIDIA の画期的な H100 製品が中心的な役割を果たすでしょう。

2022 ホッパー (H100) – 現代の大型モデルの基礎となるトランスフォーマー エンジン。

2022年には核爆弾とも言えるH100が打ち上げられました。

H100 は、特定のソフトウェア アルゴリズム Transformer をチップに直接組み込んでおり、数兆個のパラメータを持つ大規模言語モデル (LLM) の処理に特化して設計されています。

2022年上半期の数字はまさに核爆弾のようなものでした。

Transformerアーキテクチャは、Googleの2017年の論文「Attention Is All You Need(必要なのは注意だけ)」に由来し、現代の大規模言語モデルの基盤となっています。TransformerエンジンはH100内の物理モジュールであり、ソフトウェアではなく、ハードワイヤード回路です。

一方、FP8精度を活用したH100は、A100の9倍の学習性能を実現します。NVLinkスイッチと組み合わせることで、256基のGPUを巨大なスーパーブレインへと変貌させます。H100がなければ、ChatGPTや兆パラメータの大規模モデルの時代は到来しなかったでしょう。

H100 の研究は、次の 4 つの側面からアプローチできます。

1) Tensor Core は Transformer エンジンと FP8 を導入します。

2) 第 4 世代の NVLink と NVSwitch は 900 GB/秒の帯域幅を実現します。

3) CUDA の新機能、動的プログラミングを高速化する DPX 命令セットの導入。

4) プライバシーコンピューティングをサポートする世界初の GPU。

Tensor CoreはTransformerエンジンとFP8を導入

H100では、FP8が突撃実行者として機能します。推論と学習のためのほとんどの行列乗算はFP8で実行できます。

FP16 は抜け目なく用心深い文官のように動作し、精度の低さによる更新量の損失を防ぐためにコピーを保存し、速度と安定性のバランスを取りながら橋渡しの役割を果たします。

低精度の蓄積中に微妙な勾配が「切り捨て」られ、エラーが蓄積されて学習が停止するため、保存と重みの更新に FP32 が使用されます。

FP8 を使用すると、限られた GPU メモリで兆パラメータのモデルをトレーニングできるため、スループットが 2 倍になります。

DPX命令セット: サイズを簡単に比較

DPX は本質的に、Nvidia が「加算を実行した後にサイズを比較する」ためにチップに半田付けしたショートカット キーです。

チェス盤の上で、左上から右下へと動いているところを想像してみてください。それぞれの動きにはコストがあり、最もコストが低い経路を見つけたいとします。そこで、上から来る場合、左から来る場合、斜め上に向かう場合のコストを比較し、最もコストが低い経路を選びます。

このアクションの構造に注意してください。最初に追加し、次にどちらが小さいかを比較します。

チェス盤全体には何百万、あるいは何十億ものマス目があり、この動作はすべてのマス目に対して実行する必要があります。これが動的計画法の日常的なルーチンです。

H100のDPXは、これら2つのステップを1つに統合します。「はんだ付け」という言葉を使用しているのは、これがチップ上のハードウェア構造であるためです。

DPX では、Tensor コアのような大きな専用セルを追加する必要はなく、既存の整数計算パスに「便利な比較」機能を追加するだけです。チップ領域のオーバーヘッドは最小限で、大きなメリットが得られます。

例えば、遺伝子配列解析では数十億もの塩基対を一度に比較する必要があり、この操作は塩基対ごとに実行する必要があります。1つの命令を数十億もの演算に掛け合わせることで、かなりの時間を節約できます。

さらに、H100 はハードウェア レベルの TEE をサポートする世界初の GPU であり、プライバシー コンピューティングの新たな章を開きます。

TMA(Tensor Memory Accelerator):非同期データ転送エンジン

TMA は、SM マイクロアーキテクチャ レベルでの H100 の最も重要な変更点の 1 つであり、Tensor Core と Transformer Engine がフル稼働できるかどうかを直接決定します。

簡単に言うと、TMA は Nvidia がチップ内に専用のデータ トランスポーターをインストールすることで、作業スレッドがデータを取得するためにウェアハウスに行く必要がなくなります。

GPU のメモリ構造は 2 つの層に分かれています。

1) グローバル メモリ (HBM) は容量が大きく (80 GB)、コンピューティング ユニットから離れているため、アクセスが遅く、郊外の巨大な倉庫のようです。

2) 共有メモリ (SMEM) は容量が小さい (SM あたり最大 228 KB) ですが、ワークステーションの隣にある小さなキャビネットのように、コンピューティング ユニットの近くにあり、アクセスが高速です。

すべての計算は、まず郊外の倉庫からワークステーションの小さなキャビネットにデータを移動し、計算が完了したら元に戻す必要があります。データの移動自体では有用な計算結果は得られませんが、すべてのデータを移動しなければ計算を実行できません。

TMAは、より正確な分担を可能にする専用のトランスポートモジュールです。テンソルの形状を理解し、特に非同期で実行できることが大きな特徴です。

TMA にはもう一つの切り札、マルチキャストがあります。

H100では、スレッドブロッククラスタ(複数のSMがクラスタを形成)が導入されています。TMAは、リクエストを開始したSMの共有メモリにデータを移動するだけでなく、同じデータをクラスタ内の複数のSMに同時にコピーすることもできます。

要約すると、

GPUの根本的な矛盾は、計算は高速に行えるものの、動作が遅いことです。A100の時代では、作業員は部品を自ら動かさなければならず、作業を再開する前に全員が作業を中断して一緒に動かさなければなりませんでした。

H100のTMAは、専属の配達員のようなものです。住所を書いて貼り付ければ、配達員が処理してくれます。他の人は自分の仕事に集中できます。さらに、この配達員はテンソルの形状を理解しており、データの次元数に関わらず、座標さえ与えられれば、自分で目的の住所を見つけることができます。

DPXが「計算を高速化」し、1つの命令で2つのタスクを実行するとすれば、TMAは「データ転送を妨げにしない」ことで、データ転送と計算を互いに干渉することなく並行して実行することを可能にします。この2つの連携により、H100は真にその計算能力を最大限に発揮します。

グラフィックカードベンダーからAIインフラの絶対的な支配者へ

2023年、NVIDIAは完全な変革を遂げました。グラフィックカードサプライヤーから、世界の人工知能インフラの絶対的な支配者へと躍進し、時価総額は初めて1兆ドルを超えました。

同社の業績は3四半期連続でウォール街の予想を大きく上回りました。データセンターの収益は、ゲーム事業の収益に取って代わり、同社の絶対的な中核を成しています。

マイクロソフト、Meta、グーグルといったシリコンバレーの巨大企業から、サウジアラビアやUAEといった独立国家に至るまで、世界中でH100チップの買いだめが猛烈に行われています。TSMCのCoWoSパッケージング能力の限界により、H100チップは極めて希少となり、中古市場では1チップの価格が一時4万ドル以上に高騰しました。

GPT-4やLlamaといった主流の大規模モデルは、ほぼすべてCUDAアーキテクチャ上で開発されています。AMDのハードウェアパラメータが優れていたとしても、基盤となる最適化や演算子ライブラリはすべてNVIDIAが管理しているため、開発者が移行するのは困難です。

同時に、NVIDIAはソフトウェアライセンスによる収益化を開始しました。ハードウェアは一度限りの販売ですが、ソフトウェアのサブスクリプションは継続的なキャッシュフローをもたらします。

GTC 2023で、ジェンセン・フアンは「iPhoneにAIが搭載される時代が到来した」と有名な​​発言をしました。

2024 ブラックウェル(B200) – マイクロテンソルスケーリング

NVIDIAは3月のGTCカンファレンスで、NVLink-C2Cを通じて2つのチップを1つに統合し、トランジスタ数が2080億個と飛躍的に増加した「デュアルチップ統合」構造を実現したBlackwell(B200/GB200)を発表した。

ソフトウェア面では、B200 は統一された全体を維持しています。

B200 は、Tensor Core、CUDA、NVLink の 3 つの側面から分析できます。

第5世代Tensorコア:FP4をサポート

B200 Tensor Core の最大の進歩は、FP4 のサポートにあります。

2017 年の FP16 をサポートする第 1 世代 Tensor Core から、2022 年の FP8 をサポートする H100、そして現在では FP4 をサポートする B200 の第 5 世代 Tensor Core に至るまで、計算能力は向上する一方で精度は低下しています。

B200 の FP4 は単純な精度の切り捨てではなく、マイクロテンソル スケーリングを導入します。

簡単に言うと、マイクロテンソル スケーリングは、データを破棄せずに各数値を小さくするデータ圧縮および量子化技術です。

本質的には、ダイナミック レンジ管理アルゴリズムとハードウェア レベルのスケーリングの連携により、数十の要素のグループに独立したスケーリング係数を持たせることができます。

ハードウェア レベルでは、マイクロテンソル スケーリングは、Blackwell の第 2 世代 Transformer Engine と第 5 世代 Tensor Core の物理回路の連携に依存しています。

第 2 世代の Transformer Engine は、ハードウェア スケジューリング ハブとして機能し、ダイナミック レンジ管理アルゴリズムを担当し、さまざまなネットワーク層とさまざまなテンソルの数値分布範囲をリアルタイムで追跡し、最適な共通スケーリング比を計算します。

第5世代Tensorコアは、物理レベルでFP4のネイティブハードウェアサポート、つまりハードウェアレベルのスケーリングを追加し、実行を担います。算術論理ユニット(ALU)は、FP4データとスケーリング係数を受け取りながら、ハードウェアレベルで直接行列乗算演算を実行できます。

FP4データは計算中に瞬時にアライメントされ、高精度のダイナミックレンジを復元できるため、主要な特徴を失うことなく計算能力を2倍に高めることができます。これは超大規模モデル向けに特別に設計されています。

さらに、ハードウェア解凍エンジンの導入により、PCIe および NVLink の有効な帯域幅利用率が間接的に向上しました。

CUDA 13.0

鍵となるのは、開発者がB200の複雑な「デュアルコア統合」構造をいかにシームレスに制御できるようにするかです。

B200 は物理的には 2 つのチップで構成されていますが、CUDA は NV-HBI (高帯域幅インターフェイス) を通じて、開発者が 192 GB のビデオ メモリを備えた統合エンティティを確認できるようにし、チップ間の手動データ同期の必要性を排除します。

NVLink 5.0 と NVL72

第5世代NVLinkプロトコルにより、単一GPUの双方向帯域幅はH100の2倍となる1.8TB/秒に向上します。2つのチップ間の帯域幅はさらに向上し、10TB/秒に達するため、ソフトウェア層では2つのチップが別々であることは全く認識されません。

これを基に、NVIDIA は 36 個の Grace CPU と 72 個の Blackwell GPU を統合し、1.4 EB/s の総帯域幅を備えた大規模なリソース プールを形成する GB200 NVL72 ラックもリリースしました。

GB200 NVL72は、ファンが効かなくなったため、液冷設計を採用せざるを得ませんでした。ラック背面には光ファイバーの代わりに5000本の銅線を使用することで、消費電力を大幅に削減するとともに、光電変換によるナノ秒レベルの遅延を排除しました。

それ以来、Nvidia は「サーバー ラック」を最小の販売単位として使用し始めました。

SHARPもバージョン4に進化し、ネットワークコンピューティング能力がさらに倍増しました。

NIM (NVIDIA 推論マイクロサービス): ソフトウェア クローズド ループ

これまで、大規模なオープンソース モデルを自社サーバーに導入するのは、非常に面倒な手作業でした。

エンジニアは、基盤となる環境の設定、CUDAのインストール、PyTorchのコンパイル、アクセラレーションスクリプトの手作業による記述、そしてインターフェースのカプセル化といった作業を行う必要があります。このプロセス全体には数週間かかることも珍しくありません。

NIMは、事前に最適化されたモデルがプリインストールされたソフトウェアコンテナです。企業はNVIDIAカードを購入するだけで、ワンクリックでNIMを実行できます。そのため、高額な費用をかけて各コンポーネントを個別に微調整するアルゴリズムチームは必要ありません。

企業は自社のイントラネット内にNIMを導入できます。AWSなどのクラウドサービス上でNIMを活用することで、企業は最新のモデルを活用しながら、独自のデータとアプリケーションを完全に安全に管理できます。データがサードパーティのモデルプロバイダーに漏洩することはありません。

2024年6月、Nvidiaの時価総額は一時的にMicrosoftとAppleを上回り、世界で最も価値のある企業となった。

しかし、同年、市場の動向は大きく変わり始めました。一方で、NVIDIAの財務報告は依然として驚異的で、驚くほど高い利益率を誇っていました。

一方、シリコンバレーはAIへの投資収益率を懸念し始めている。マイクロソフトとグーグルはGPUに数千億ドルを投じてきたが、付加価値サービスからの収益がコストをカバーできず、NVIDIAの株価は8月と9月に大きく変動した。利益は依然として数百パーセントの成長を維持しているにもかかわらずだ。

2025年には、Nvidia の時価総額は 5 兆ドルを超え、世界で最も価値のある企業としての地位を確固たるものにしました。

年初には、DeepSeek R1が最高級チップへの依存を減らすと主張したことで短期的な影響を受け、1日で市場価値が大幅に下落しましたが、その後、AIトレーニングにおける高性能コンピューティング能力の需要は変わっていないことが市場で認識され、Nvidiaの株価はより安定しました。

NVIDIAの2025年度の売上高は1,305億ドルに達し、前年比114%増となりました。そのうち約80%をデータセンター事業が占めています。NVIDIAの決算発表は、従来の経済指標に代わり、米国株式市場の指標となっています。

Nvidiaは、MicrosoftとOpenAIの5000億ドル規模のStargateスーパーコンピューティングプロジェクトにも参加した。

2025年に、Nvidia は実際にいくつかの重要な戦略的転換を遂げるでしょう。

1) ビジネスレベル:主権国家にチップを輸出し、主権 AI を構築する。

2) 技術的アプローチ:生成AIからエージェントAI群への移行。

3) 最先端のアプリケーション:ロボット工学とデジタルツインに関する理解を深めます。

2025年、Nvidia は、あまり注目されなかったものの非常に重要な 2 つの主要な取り組み、GR00T と Cosmos も発表しました。

GR00Tはヒューマノイドロボット用の最初のオープンソース汎用基本モデルであり、CosmosはGoogleやDisneyなどの企業と連携した物理シミュレーションプラットフォームです。

この 2 つを組み合わせることで、ロボットをデジタル ツインの世界でトレーニングし、コンピューターの仮想環境で重力、摩擦、流体力学、さらには材料の弾力性や光と影をシミュレートできるようになります。

GPUの強力なコンピューティング能力を活用することで、仮想世界は指数関数的な速度で動作できます。現実世界では1日で、仮想世界では数十年、あるいは数世紀に相当する物理シミュレーションプロセスを完了できます。ロボットのAI脳は、極めて短い時間で数十億回の転倒と立ち上がりを体験します。

これは、「人間界での 1 日はデジタル界での 10 年に相当する」ということに相当します。

ヒューマノイド ロボット プロトタイプ Isaac GR00T N1 の量産により、NVIDIA はロボット工学の世界的な「脳幹サプライヤー」に正式に参入したことになります。

Jetson Thorは、ロボット専用に設計された車載コンピューティングプラットフォームです。既に量産が開始されており、あらゆる移動型「インテリジェントエージェント」の脳幹となることを目指しています。

年末、Nvidia は次世代の Rubin アーキテクチャを正式に発表しました。

2026 Rubin (R100) – エージェント型AI群による超大規模推論

NVIDIAは今年初め、CPU、GPU、NVSwitch、NIC、DPU、SuperNICという6つの主要チップを再設計したRubin R100を発表しました。NVIDIAはこのコンセプトを「Extreme Co-design(エクストリーム・コデザイン)」と呼んでいます。

12Hiスタックを備えた第4世代の高帯域幅メモリHBM4

これには、メモリウォール、スタッキング、そしてHBMという3つの概念が関係しています。これら3つの用語は、「問題の特定 - 解決策の提案 - 問題の解決」という一連の流れを形成します。つまり、メモリウォールが問題であり、スタッキングが解決策であり、HBMが解決策なのです。

メモリウォールとは何ですか?

つまり、RAM/ビデオメモリのデータ転送速度が、GPU/CPU の計算速度に追いつかないのです。

たとえば、GPU は 1 秒あたり 100 万回の乗算を実行できますが、メモリは 1 秒あたり 10 万回の数値しか送信できないため、GPU は残りの 90% の時間はアイドル状態になります。

ChatGPTのようなモデルは数千億のパラメータを持ち、質問に答えるたびにこれらの数千億の数値をメモリから取得して計算する必要があります。これによりメモリウォール問題が発生し、最も強力なGPUでさえも役に立たなくなります。

スタッキング:物理的なレベルで記憶の壁を壊す

メモリの壁を破る最も簡単で直接的な方法は、メモリと GPU をできるだけ近くに配置し、複数のメモリ モジュールを使用することです。

しかし、GPU周辺のマザーボード面積は限られています。そこでエンジニアたちは、TSV(シリコン貫通ビア)を用いてメモリチップに数万個の微細な穴を開け、そこに銅線を流し込み、4層、8層、12層、そして将来的には16層へと進化するメモリチップを、まるでハンバーガーを積み重ねるように垂直に積み重ねるという手法を考案しました。これがスタッキングです。

HBM(高帯域幅メモリ):スタック内のハイウェイ

HBM は、主に TSV (Through Silicon Via) とシリコン インターポーザー (外部の水平相互接続を解決するため) に依存したスタッキング テクノロジを使用して作成された高速データ ロードです。

HBM4 (High Bandwidth Memory 4) は、現在世界で最も先進的な第 4 世代の高帯域幅メモリ技術です。12-Hi スタッキングとは、超高層ビルを建てるように、高度なパッケージング技術を使用して 12 層のメモリ チップを 1 つのチップに垂直に積み重ねることを指します。

各Rubinチップは288GBのHBM4メモリをネイティブに統合し、驚異的な合計22TB/sの帯域幅を実現します。10兆個のパラメータを持つ主流の超大規模モデルを処理する場合、RubinはGPUの数を増やすことなく、トレーニング効率を3.5倍向上させ、推論コストを10分の1に削減できます。

Vera CPU – FP8をネイティブサポート

まず、CPU と GPU の基本的な違いを確認しましょう。

CPU は、計算ユニット (ALU) ではなく、複雑な制御ユニットとキャッシュに多数のトランジスタを割り当てます。

この設計は、複雑なロジックを持つオペレーティングシステムには非常に効果的ですが、AI の「厳密な」大規模な数学的演算に直面すると、複雑な制御ユニットはエネルギー効率が極めて低い、まったくの無駄になります。

GPUはSIMD(Single Instruction Multiple Data)アーキテクチャ、あるいはより高度なSIMT(Single Instruction Multiple Thread)アーキテクチャを採用しています。単一の制御ユニットが多数の演算ユニットを制御します。

体操と同じように、インストラクター (CU) が「手を上げてください」と叫ぶと、何千人もの生徒 (ALU) が同時にその動きを実行し、「コマンド」に使用されるトランジスタ領域を大幅に節約し、それをすべて「作業を行う」ための計算能力に変換します。

これが、AI タスクにおいて GPU が CPU よりもはるかにエネルギー効率に優れている根本的な理由です。

しかし、GPUはオペレーティングシステムを実行できず、ハードディスクのファイルを直接読み取ることも、外部ネットワークからのリクエストを処理することもできません。GPUはCPUによって使用され、CPUはタスクをディスパッチし、データを準備する必要があります。

Vera CPU は、Windows データを処理するための汎用プロセッサではなく、NVIDIA が Agentic AI 向けにカスタマイズしたデータ スチュワードであり、非常に低いレイテンシと非常に高い帯域幅で隣接する Rubin GPU にデータを安定して供給します。

本質的には、GPUコンピューティングのスループットを最大化するために設計された専用プロセッサです。従来の汎用コンピューティングにおける冗長な機能を排し、極めて高いメモリ帯域幅、極めて低いシングルスレッド消費電力、そしてネイティブの低精度データサポートを活用することで、単一のAIコンピューティングシナリオにおいて絶対的なデータスケジューリング効率を実現します。

2022年以前、NvidiaはGPUのみを製造していました。すべてのAIサーバーは、マザーボードコアとしてIntelまたはAMDのx86 CPUを使用し、USBドライブのようにNvidiaのGPUを接続していました。これが、前述のPCIeボトルネックの原因となっていました。

Hopper(H100)時代の到来とともに、NVIDIAは独自のARMアーキテクチャGrace CPUを開発し、初めて自社CPUとH100 GPUを同じスーパーマザーボードにパッケージ化したGH200(Grace Hopper Superchip)を発売しました。

Vera により、CPU と GPU 間のデータ障壁が完全に解消されました。

以前からGPUはFP8のような極めて低い精度で計算を実行していましたが、CPUは従来、高精度のFP32/FP16データの処理にしか適していませんでした。両者間のデータ転送には頻繁なフォーマット変換が必要であり、大量の帯域幅と時間を浪費していました。

Veraは、ハードウェアレベルでFP8をネイティブにサポートする業界初のCPUです。データがRubin GPUに送られる前に、CPUレベルでFP8の前処理とアライメントを直接実行できるため、データ形式変換に伴うレイテンシのオーバーヘッドを完全に排除できます。

NVLink 6とシリコンフォトニクス(CPO)

物理レベルでは、NVIDIAはエンジニアリングと材料科学の限界をいくつも押し広げてきました。次に説明する銅線からシリコンフォトニックCPOに至るまでの設計は、まさにこの限界の縮図と言えるでしょう。

シリコンフォトニクスとCPO技術は、極めて高い製造コストと壊滅的なメンテナンスの困難さを犠牲にして、物理的な限界を打ち破る広大な帯域幅と極めて低い消費電力を実現します。一方、銅線は、低コストで極めて高い物理的信頼性を備え、単一ラック内で最後の砦となります。

しかし、R100はすでに銅線の限界に達しています。

以前の世代のBlackwellアーキテクチャラックでは、72個のコンピューティングチップをオール銅線で相互接続するために、ラックのバックプレーンに5,000本以上の極太銅ケーブルが詰め込まれていました。2026年にリリースされるNVLink 6では、シングルカード相互接続帯域幅が3.6TB/秒へと倍増します。

純銅ソリューションを継続すると、ラック内の銅ケーブルの数は1万本を超えます。物理的に収容不可能なだけでなく、非常に密集したケーブル配線はラック全体の冷却空気の流れを完全に遮断してしまいます。

さらに深刻なのは、銅線の抵抗が超高周波信号伝送中に深刻な信号減衰を引き起こすことです。電気信号を強制的に通過させるには、システムは膨大な電力を消費しなければなりません。ラック単体の消費電力がすでに非常に高かったRubin時代においては、信号減衰によるこの不必要なエネルギー消費は全く許容できませんでした。

したがって、Nvidia の銅線からシリコン フォトニクス CPO への移行は、積極的な選択というよりは、必要なトレードオフと言えます。

NIM 2.0と推論ストレージ

R100の核となるキーワードは「Agentic AI」です。前のセクションではAgentic AIのハードウェアレベルのサポートについて紹介しましたが、NIMはハードウェアとソフトウェアの連携です。

NIM 2.0 は、マルチエージェント協調コンピューティング専用に設計された標準化されたソフトウェア コンテナーおよびスケジューリング バスであり、異なる AI モデル間での超高速のデータ相互作用とコンピューティング能力の割り当てを可能にします。

ソフトウェアレベルでは、さまざまな AI モデルがカプセル化され、非常に低いレイテンシで相互に呼び出すことができ、複雑なタスクは自動的に分割されて分散されます。

推論ストレージは、大規模なモデルと超長いコンテキスト (KV キャッシュ) 向けに特別に構築された物理的なマルチレベル メモリ アーキテクチャであり、単一のグラフィック カードのメモリ容量の物理的な制限を完全に打ち破ります。

モデル推論中のコンテキスト データは、メイン メモリと頻繁にやり取りされることはなくなり、ネットワーク交換中に動的にキャッシュされます。

ハードウェアとソフトウェアの組み合わせにより、数百万語に及ぶ複雑なタスクを処理する際の Agentic AI の遅延とメモリ オーバーフローのボトルネックを解決します。

従来の推論サービスフレームワークは、主に単一モデルの逐次最適化(例えば、単一のLLMによるテキスト生成)に重点を置いていました。しかし、Agentic AIワークフローでは、複数のモデルが高頻度で同時連携する必要があることがよくあります。NIM 2.0は、この目的のために特別に再構築されたソフトウェアインフラストラクチャです。

さらに、未来の方向性を示すGR00TとCosmosはバージョン2.0へと進化しました。NVIDIAはBMWやTeslaといった工場と緊密なパートナーシップを築いており、2026年までにGR00T 2.0を搭載した数十万台の協働ロボットがNVIDIA Isaacプラットフォームを介してクラウド上で稼働できるようになる予定です。

この時点で、Nvidia の開発軌道は完全に概説されました。

追記

Nvidia に関する調査で、私は 2 つの点に深く感銘を受けました。

1) 黄仁勲の判決

2012 年の ImageNet コンテストでは、Alex Krizhevsky 氏が 2 枚の一般的な NVIDIA GTX 580 ゲーミング グラフィック カードを使用して、画像認識エラー率を 26% から 15.3% に削減し、2 位に 10.8% もの差をつけて世界に衝撃を与えました。

2013 年、Jensen Huang は CPU に重点を移しました。

注目すべきは、GoogleがTransformerアーキテクチャを導入し、現代のLLM大規模モデルの基礎を築いた論文「Attention is All You Need」を発表してから4年後のことだ。当時、チップ業界における競争は依然として、より汎用的なCPU分野に集中していた。

その後、黄仁訓はあらゆる重要な局面でほぼ正しい選択を行った。

2006 年当時、CUDA が何のためにあるのか誰も知りませんでしたが、彼は CUDA への投資を続けるために毎年 5 億ドルを費やし続けました。

2017年、科学計算コミュニティがまだFP64の絶対的な精度を追求していたとき、彼は最も高価なチップ上に、当時は少数の人々しか使っていなかった行列演算専用の回路に大きな領域を割り当てるという大胆な試みをしました。

2018年、モバイルインターネットの波が最高潮に達したとき、彼は携帯電話用チップを断固として放棄し、すべてのリソースをデータセンターに賭けました。

2022年、彼は当時あまり知られていなかったOpenAIオフィスに最初のDGX-1を自ら届けました。

当時はすべての決断がほとんど狂気の沙汰に思えた。

この判断は予言的な予測からではなく、テクノロジーの根底にあるロジックへの深い理解から生まれたものです。ジェンセン・フアンは一貫して一つの問いを投げかけてきました。「コンピューティングの未来はどうなるのか?」彼の答えは一貫しています。並列コンピューティングは最終的にシリアルコンピューティングに取って代わり、特化した効率性が最終的に汎用的なパフォーマンスに勝利するでしょう。

この信念は、CUDA から Tensor Core、NVLink から Rubin に至るまで、NVIDIA の開発パス全体を導いてきました。

2) Nvidiaのエンジニアリング能力

Nvidia のチップの反復は物理学の限界を繰り返し押し広げてきました。このプロセスで行われたイノベーション、トレードオフ、選択は、通信、材料、光学に関係するだけでなく、量子物理学の限界にまで及んでいます。

ハイブリッド精度は、速度のために曖昧さを犠牲にするトレードオフです。

構造化されたスパース性は、プルーニングの能力を犠牲にするトレードオフです。

銅線からシリコンフォトニクスへの移行は、製造の難しさと伝送限界とのトレードオフを意味します。

アーキテクチャの進歩の各世代は、単に数字を増やすことではなく、精度と効率、汎用性と特化、コストとパフォーマンスの間の最適なソリューションを繰り返し模索することです。

その背後には、非常に大規模で深く関与するエンジニアリング チームがいます。

cuDNNの畳み込みアルゴリズムは、10年以上にわたるアセンブリレベルの手動最適化を経てきました。TensorRTの演算子融合は、各カーネルのスケジューリング戦略に至るまで精密です。TMAの非同期転送メカニズムは、計算とデータ転送の間の真の並列性を実現します。これらの目に見えない基盤となる進歩こそが、CUDAエコシステムのモート(堀)の最も深い礎石なのです。

さらに注目すべきは、Nvidia がハードウェアとソフトウェアの間に極めて堅牢な橋を構築したことです。

CUDAからcuDNN、TensorRTからNIM、チップからラック、そしてデータセンター全体に至るまで、各レイヤーは緊密に統合されています。たとえ競合他社が1つのレイヤーで追いついたとしても、スタック全体で同時に追いつくのは非常に困難です。

これはチップを製造するだけの会社ではなく、トランジスタからソフトウェア コンテナー、単一カードから複数カードのクラスター、アルゴリズムから物理法則まで、あらゆるものの限界を押し広げるシステム レベルの会社です。

Nvidia の台頭を振り返って、私が最も感銘を受けるのは、単純な真実です。本当の堀は決して単一の技術ではなく、長期にわたる無数の正しい決定の複合的な効果です。

CUDAがディープラーニングの爆発的な発展を目の当たりにするまでには10年かかりました。Tensor CoreがTransformerの台頭を目の当たりにするまでには5年かかりました。NVLinkは、ポイントツーポイント接続から完全に相互接続されたネットワークへと進化するのに3世代かかりました。それぞれの技術は、登場当初は時代を先取りし、不要とさえ思われていましたが、歴史の波が本当に到来した時、それらは確かにそこに存在していたのです。

これはおそらく、黄仁訓がよく言っていることに対する最良の説明でしょう。

「我が社は常に、破産まであと30日しかありません。」

この危機感こそが、他社が「時期尚早」と考えるたびに、NVIDIAが10年先を見据えた基盤を築き続けた原動力でした。そして、まさにその機会が訪れた時、誰もがNVIDIAだけがその道を歩み続けていることに気づきました。

最後に、少し振り返ってみたいと思います。

Nvidia 以外にも、研究の過程で私が畏敬の念と興奮を覚えたのは、人類が示した知恵でした。

B200チップ1個には2080億個のトランジスタが集積されています。ちなみに、天の川銀河には肉眼で見える恒星が約6000億個あります。指の爪ほどの大きさのチップにも、同程度のトランジスタが集積されています。

これら2080億個のトランジスタは、一つ一つはんだ付けされたのではなく、フォトリソグラフィー技術によって作製されました。波長わずか13.5ナノメートルの極端紫外線(EUV)が極めて精密なフォトマスクを通過し、シリコンウェハー上に回路パターンを投影し、層ごとに「焼き付け」ます。各層に求められるアライメント精度はサブナノメートルレベルで、地球から月面のコインにレーザーを照射するのと同等の精度です。

トランジスタのゲート長が3ナノメートル、あるいはそれ以下にまで縮小すると、電子の挙動はもはや古典物理学に厳密に従わなくなり、量子トンネル効果が現れ始め、電子は本来絶縁体であるべき薄い壁を幽霊のように通り抜けることができるようになります。言い換えれば、チップエンジニアリングは量子力学における不確定性原理の限界に到達したのです。

これがまさに、B200が「デュアルコア統合」接合方式を採用しなければならない根本的な理由です。単一のシリコンウェハーは、すでに現在のフォトリソグラフィー技術と物理法則の限界に近づいており、さらに大型化すれば歩留まりが悪化するだけです。

そこでエンジニアたちはアプローチを変えました。1つの部品だけでは実現できなかったため、2つの部品を完璧に組み合わせ、10TB/秒の帯域幅を持つNVLink-C2Cを使用してそれらを1つの部品にまとめ上げました。これにより、ソフトウェア層は継ぎ目を全く意識する必要がなくなりました。

量子物理学から材料科学、光学工学からパッケージング技術まで、チップの作成には人類のほぼすべての最先端分野の英知が結集されています。

シュテファン・ツヴァイクの著書『人類の星』を思い出します。私たちは砂で思考する機械を作り、それを使って宇宙を探索し、物理法則をシミュレートし、さらには意識そのものを理解しようとしています。

これはおそらく、他のどの企業の台頭よりも書く価値のある物語でしょう。

共有先:

著者:戈多Godot

本記事はPANews入駐コラムニストの見解であり、PANewsの立場を代表するものではなく、法的責任を負いません。

記事及び見解は投資助言を構成しません

画像出典:戈多Godot。権利侵害がある場合は著者へ削除をご連絡ください。

PANews公式アカウントをフォローして、強気・弱気相場を一緒に乗り越えましょう