著者: 0xJeff 、Crypto KOL
編集:Felix、PANews
最近では、食品、住宅、百科事典、電子機器、アプリ、そして最近では AI など、誰もが物を売っています。
かつてはマズローの欲求階層説の低次の段階を満たす実用的な商品を販売していたが、今では特に暗号化されたAIの分野では、華やかな装いで夢や希望を販売している。
暗号化された AI 製品とインフラストラクチャは理解しにくいことが多く、チームがコミュニケーションで専門用語を多用することになり、ユーザーの関心を引くことができません。
さらに、単なるラッパーではなく、本物の AI ラボを立ち上げるには、人材、貢献者、コンピューティング リソース、その他の必要なリソースをサポートするための多額の資金が必要です。
高度なエンタープライズレベルのAIラボは、年間数百万ドルの費用がかかる場合があります。最先端のAIモデルの研究、トレーニング、最適化には数億ドルの費用がかかることもあります。H100 GPUの価格は25,000ドルから40,000ドル、より新しいBlackwell B200およびGB200 GPUの価格は30,000ドルから70,000ドルです。最先端モデル1つのトレーニングには、これらのGPUが数千台必要になる場合があります。
分散型AI(DeAI)の利点:より小さなモデル + 強化学習
単一のモデルを学習するためにコンピューティングリソースをグローバルに調整する分散型システムを選択すると、世界中で利用可能なアイドル状態のGPUネットワークを活用できるため、理論上はGPUコストを大幅に削減できます(30%~90%の削減)。しかし、実際には、これらのGPUを調整し、すべてが高品質で動作することを保証することは非常に困難です。そのため、分散型AIラボは未だに分散学習の課題を克服できていません。
しかし、いくつかの研究室が分散型強化学習において有望な成果を上げていることから、将来にはまだ希望があります。この自己対戦と自己学習のプロセスこそが、小規模なモデルを極めて知能の高いものにすることを可能にするのです。
大規模言語モデル(LLM)は、あらゆる状況で必要というわけではありません。ドメイン固有のモデルをトレーニングし、強化学習(RL)を用いてそのスキルを洗練・強化することが、エンタープライズグレードのAIソリューションを提供する最も費用対効果の高い方法です。なぜなら、最終的に顧客が求めているのは、結果(コンプライアンス、セキュリティ、費用対効果、生産性の向上)だからです。
2019年、OpenAI FiveはDota 2で当時の世界チャンピオンであるOGを破りました。これは偶然ではなく、2試合連続でOGを破った完全な大勝でした。
どうやってそれができるのか不思議に思うかもしれません。
Dota 2 は、5 人のプレイヤーがさまざまな目標を達成し、相手の基地を破壊するために互いに競い合う、非常に複雑なマルチプレイヤー オンライン バトル アリーナ ゲームです。
AIがトッププレイヤーと競争するために、次の手順に従いました。
- ゼロから始めて、自分自身と練習しましょう。基本を学び、何百万回もの練習試合に参加しましょう。勝てば戦略が正しいことが証明され、負ければ戦略に欠陥がある(つまり、大規模な試行錯誤を繰り返した)ことが証明されます。
- 報酬システム (ポイント) を設定して、勝利につながる可能性が高い正の期待値 (EV) を持つ行動 (砲塔の破壊やヒーローの殺害など) を奨励し、負の期待値を持つ行動からはポイントを減点します。
- このトレーニング方法は、「PPO」と呼ばれる強化学習アルゴリズムを採用しています。AIは競技中に特定のアクションを試行し、その結果をフィードバックとして扱います。結果が良ければアクションを増やし、悪ければアクションを減らします。この手法により、AIは徐々に正しい方向に導かれます。
- AI をトレーニングするために、数百の GPU が 1 年近く稼働しており、AI は常に学習し、ゲーム バージョンの更新や変更に適応しています。
- しばらくすると、複雑な戦略(レーンを犠牲にする、適切なタイミングで保守的または積極的なアプローチを採用する、大規模攻撃の機会を捉えるなど)を独自に模索し始め、人間のプレイヤーと競争して勝利し始めました。
OpenAI Five は廃止されましたが、小さなモデルでも特定のドメインタスクでは非常に効果的であることが示されました (OpenAI Five のパラメーターはわずか 58 MB です)。
OpenAIのような大規模なAIラボは、強化学習モデルを訓練するための資金とリソースを備えているため、これを実現できます。企業が不正検出、工場ロボット、自動運転車、金融市場取引のために独自のOpenAI Fiveを導入したい場合、多額の資金が必要になるでしょう。
分散型強化学習はこの問題を解決します。そのため、Nous Research、Pluralis、gensyn、Prime Intellect、Gradient などの分散型 AI ラボは、グローバル GPU ネットワークを構築して強化学習モデルを共同でトレーニングし、エンタープライズ レベルのドメイン固有の AI のインフラストラクチャを提供しています。
一部の研究室では、強化学習モデルのトレーニングにH100ではなくRTX 5090/4090を使用するなど、さらなるコスト削減策を模索しています。また、強化学習を用いて大規模ベースモデルの知能を向上させることに重点を置いている研究室もあります。
研究の焦点に関わらず、分散型AIは最も有望な開発方向の一つとなるでしょう。分散型強化学習ソリューションが大規模に商用展開できれば、企業顧客はAIに多額の投資を行い、年間8桁から9桁の収益を達成する分散型AIチームがさらに増えるでしょう。
調整層を通じたDeAIの資金調達と拡張
しかし、年間収益が 8 桁から 9 桁に達するまでには、商業的に実現可能な強化学習ソリューションを継続的に研究、実装、移行する必要があり、そのためには多額の資金が必要です。
Bittensorのようなコーディネーションレイヤーを通じて資金を調達することは、最良のアプローチの一つです。数百万ドル規模のTAOインセンティブが毎日サブネット(スタートアップ企業やAIラボ)に分配され、貢献者(AI人材)はインセンティブの一部と引き換えに、関心のあるサブネットに貢献します。
Bittensor により、貢献者は AI 開発に参加でき、投資家は DeAI テクノロジーに貢献する AI ラボに投資できるようになります。
現在、Bittensor エコシステムでは、量子コンピューティング、分散型トレーニング、AI エージェント、予測システムなど、いくつかの主要な DeAI サブフィールドが目立っています (強化学習は現在その中に含まれていませんが、3 つ以上のサブネットが分散型強化学習に積極的に取り組んでいます)。
分散型強化学習の現在の進歩はどうですか?
強化学習はスケーラビリティが実証されていますが、まだ産業化には至っていません。朗報なのは、現実世界のフィードバックから学習できるAIエージェントに対するビジネス需要が急速に高まっていることです。例えば、現実世界の環境、営業・顧客サービスからの問い合わせ、市場の変化に適応できる取引モデルなどから学習できるエージェントが挙げられます。こうした自己学習システムは、企業に数百万ドル規模の収益創出、あるいはコスト削減をもたらす可能性があります。
プライバシー技術も登場しています。信頼できる実行環境(TEE)、TEEへの暗号埋め込み、フィードバックループにおける差分プライバシーといった技術の応用は、個人情報の暗号化と保護に役立ち、医療、金融、法律といった機密性の高い業界において、強力なドメイン固有の自己学習型AIエージェントを活用しながらコンプライアンスを維持することを可能にします。
次に何が起こるでしょうか?
強化学習は、AIをさらに賢くするための最良の方法です。AIを生成システムから能動的で知的なAIエージェントへと変革します。
プライバシーと強化学習の組み合わせにより、実際の企業導入が促進され、顧客に準拠したソリューションが提供されます。
強化学習により、エージェントがコンピューティング リソースを購入し、互いに交渉し、サービスを提供する「エージェント エコノミー」が実現します。
分散型強化学習は、その費用対効果の高さから、強化学習トレーニングをスケーリングするためのデフォルトの方法になるでしょう。
フェデレーテッド強化学習が登場し、複数の関係者が機密性の高いローカルデータを共有することなく協調学習できるようになります。これにより、プライバシー保護と自己学習が融合し、コンプライアンス要件を満たしながらインテリジェンスを大幅に強化できます。
