「コンピューティングパワーサイロ」に別れを告げよう: AIトレーニングは集中化の束縛から解放される

著者:エゴール・シュルギン| Gonka プロトコルの共同創設者、Apple と Samsung の元 AI アルゴリズムエンジニア

長年にわたり、最も強力なAIシステムは、閉鎖された「ブラックボックス」、つまり少数の巨大IT企業が管理する巨大なデータセンターに閉じ込められてきました。これらの施設では、数万台のGPUが同じ物理空間に詰め込まれ、超高速の内部ネットワークで緊密に接続され、大規模モデルを高度に同期されたシステムで学習することが可能です。

このモデルは長らく技術的な「必然性」と考えられてきました。しかし、現実はますます明らかになりつつあります。集中型データセンターはコストとリスクが高いだけでなく、物理的な限界に達しつつあります。大規模言語モデルの成長率は指数関数的に上昇しており、わずか数か月前に学習したシステムでさえ既に時代遅れになっています。今や問題は、単に「権力が集中しすぎている」かどうかではなく、集中型インフラが物理レベルでAIの進化に対応できるかどうかです。

繁栄の影：中央集権化された「物理的な天井」

今日の最先端のモデルは、すでにトップクラスのデータセンターの潜在能力を限界まで引き出しています。より強力なモデルを学習させるには、多くの場合、新しいサーバールームを一から構築するか、既存のインフラを根本的にアップグレードする必要があります。一方、コロケーション型データセンターは電力密度の限界に直面しており、膨大な量のエネルギーがコンピューティングではなく、シリコンウェハの焼損を防ぐための冷却システムに浪費されています。その結果は明らかです。トップクラスのAIモデルを学習させる能力は、ごく少数の企業に独占されており、米国と中国に非常に集中しています。

この集中化は、技術的な課題であるだけでなく、戦略的な脅威でもあります。AI能力の獲得は、地政学、輸出規制、エネルギー配給、そして企業の利益によって厳しく制限されています。AIが経済生産性、科学研究、そして国家競争力の礎となるにつれ、ごく少数の集中型ハブへの依存は、インフラを最も脆弱な「アキレス腱」へと変えつつあります。

しかし、この独占が必然的なものではなく、現在のトレーニングアルゴリズムの単なる「副作用」だとしたらどうなるでしょうか。

見落とされがちなコミュニケーションのボトルネック：集中型トレーニングの暗黙の限界

現代のAIモデルは非常に大規模であるため、単一のマシンで学習させることはできません。数千億のパラメータを持つ基本的なモデルでは、無数のGPUを並列処理する必要があり、その進捗は数秒ごとに同期する必要があり、このような同期は学習サイクル全体を通して数百万回も発生します。

業界の標準的なアプローチは「コロケーショントレーニング」です。これは、数千台のGPUを積み重ね、それらを専用の高価なネットワークハードウェアで接続するものです。このネットワークにより、各プロセッサがリアルタイムで調整され、トレーニング中にモデルのコピーが完全に同期されることが保証されます。

このアプローチは非常に効果的ですが、非常に厳しい前提条件があります。高速イントラネット、物理的な近接性、極めて安定した電源、そして集中的な運用管理が不可欠です。トレーニングのニーズが都市、国境、大陸といった物理的な境界を越えると、システムは機能不全に陥ります。一般的なインターネット接続の速度は、データセンターのイントラネットの速度に比べて桁違いに遅いのです。現在のアルゴリズムでは、高性能GPUは同期信号を待つスタンバイ状態でほとんどの時間を過ごします。標準的なインターネット接続で最新の大規模モデルをトレーニングすると、トレーニングサイクルが数か月から数世紀に延びると推定されています。そのため、このような試みは以前はほとんど空想的なものでした。

パラダイムシフト：「コミュニケーションの削減」がコアアルゴリズムとなるとき

従来のトレーニングモデルの基本的な前提は、学習のあらゆる小さなステップの後にマシンが通信する必要があるというものです。

幸いなことに、「フェデレーテッド・ラーニング」と呼ばれる技術が、予期せぬ転機をもたらしました。この技術は、非常に革新的なアイデアを提示します。機械は常に通信する必要がないのです。機械は、時折同期するだけで、より長い期間、独立して動作することができます。

この洞察は、「連合最適化」として知られるより広範な技術群へと発展しました。その中でも、「低頻度通信」アプローチは際立っています。同期間のローカルな計算をより多く可能にすることで、地理的に分散した低帯域幅の分散ネットワーク上でのモデルの学習を可能にします。

DiLoCo: グローバル分散トレーニングの幕開け

この技術的飛躍は、DiLoCo (Distributed Low-Communication Training) の開発に具体化されました。

DiLoCoはリアルタイム同期を必要としなくなり、各マシンが更新情報を共有する前に、長期間ローカルでトレーニングできるようになります。実験結果は有望で、DiLoCoを使用してトレーニングされたモデルは、従来の高度に同期されたモデルに匹敵するパフォーマンスを達成しながら、通信要件は数百分の1に削減されています。

重要なのは、これにより管理されたデータセンター外でのトレーニングが可能になることです。オープンソース実装では、大規模な言語モデルを標準的なインターネット接続を介したピアツーピア（P2P）環境でトレーニングできることが実証されており、中央集権型インフラへの依存を完全に排除できます。

DeepMindの研究者から生まれたこの発想は、Prime Intellectなどの機関によって数十億のパラメータを持つモデルの学習に採用されています。研究コンセプトとして始まったものが、最高レベルのAIシステムを構築するための実用的な道筋へと進化しつつあります。

産業変革：コンピューティングパワーの再分配

「集中型」から「分散型」への移行は、単に効率性を向上させるだけにとどまらず、はるかに重要な意味を持ちます。

大規模モデルをインターネット上で学習できるようになれば、AI開発はもはやエリート層だけの特権ではなくなります。コンピューティングパワーは、世界中から、多様な環境の多様な参加者によって提供されるようになります。これは次のことを意味します。

国境や機関を越えた大規模な連携が可能になりました。
少数のインフラストラクチャプロバイダーへの依存を減らす。
地政学的変動やサプライチェーンの変動に対する回復力を強化する。
より幅広い層の人々がAI基盤技術の構築に参加できるようになります。

この新しいモデルでは、AI の権力の中心は「誰が最大のデータセンターを所有しているか」から「誰が最も効果的にグローバルなコンピューティング能力を調整できるか」に移行しています。

オープンで検証可能なAIインフラストラクチャの構築

トレーニングが分散化されるにつれて、信頼と検証という新たな課題が生じます。オープンネットワークでは、計算への貢献が本物であり、モデルが悪意を持って改ざんされていないことを保証する必要があります。

これにより、暗号検証手法への強い関心が高まっています。いくつかの新興インフラプロジェクトがこれらのアイデアを実践しています。例えば、 GonkaはAIの推論、学習、検証のために特別に設計された分散型ネットワークです。Gonkaは中央集権的なハブに依存するのではなく、独立した参加者の計算能力を調整し、アルゴリズム検証を用いて貢献の真正性と信頼性を確保します。

このタイプのネットワークは、「低通信トレーニング」の核心、すなわち高速プライベートインフラへの依存を減らし、効率性、オープン性、そして回復力を重視する考え方と完全に一致しています。この文脈において、分散化はもはやイデオロギー的なレッテルではなく、エンジニアリングレベルでの必然的な結果です。アルゴリズムを常に同期させる必要がなくなったからです。