コードから認知へ：ロボット脳の進化を1万語で解説するガイド

著者：マット・ホワイト（Linux FoundationのグローバルAI担当最高技術責任者）

編集：フェリックス（PANews）

王興興（ユニツリー・ロボティクスCEO）とマット・ホワイト

数週間前、上海で一緒に旅行していた友人（普段はニュースを読んだり物事を観察したりする賢い人だが、ロボット工学についてはあまり詳しくない）が、夕食の席で、私が旅行中ずっと楽しみにしていた質問をしてくれた。

「走り回るロボット犬、玉樹氏のオフィスにあるデモンストレーションステージでカンフーを披露するヒューマノイドロボット、服をたたむロボットアーム――これらは一体どうやって動いているのでしょうか？大規模言語モデル（LLM）によって制御されているのでしょうか？具体的にどのような仕組みになっているのでしょうか？何らかの言語モデルがこれらの動きを制御しているのでしょうか？」

それは素晴らしい質問で、率直に言って、ある程度はそう言えるのですが、本当の話はもっと興味深いものです。ソーシャルメディアで見かけるボットは、単に金属製の筐体に入ったChatGPTではありません。それらはテクノロジースタック（連携して動作する多層AI）で動作しています。このスタックは、過去30年間よりも過去3年間で大きく変化しました。言語モデルはその一部です。ビジュアルモデル、アクションモデル、ビヘイビアツリー、古典的な制御ループ、そして「ワールドモデル」と呼ばれる新しいシステム群も重要な構成要素です。そして、「ワールドモデル」はおそらく、すべての開発の中で最も重要なものです。

この記事は長文で、始まりから始まり、主要な変化を一つずつ順に説明し、最終的に現在の段階、つまりロボットが世界に反応するだけでなく、世界を想像できるようになった段階にたどり着きます。

パート1：LLM以前の時代：ロボットがまだ単なるソフトウェアだった頃

数十年にわたり、ロボットを開発するということは、大量のコードを書くことを意味してきたが、そのコードのほとんどは学習を必要としない。

古典的な産業用ロボットは、綿密に設計されたモジュールを積み重ねた塔のような構造をしている。例としては、1990年代にトヨタの車体を溶接したオレンジ色のロボットアームや、2000年代初頭のボストン・ダイナミクスのBigDogなどが挙げられる。

知覚：カメラ映像をフィルタリングし、エッジ検出を実行し、幾何学的マッチングを使用してワークピースの位置を特定します。
状態推定：ホイールエンコーダ、ジャイロスコープ、加速度計を組み合わせたセンサーフュージョンによって、ロボットの位置と速度を決定する。
プランニング：目標姿勢が与えられたら、A*アルゴリズムやRRTアルゴリズムなどのアルゴリズムを使用して、既知のマップ内で衝突のない経路を計算します。
制御：最も基本的なレベルでは、PIDコントローラーがモーターのトルクを毎秒数百回または数千回調整して、経路を追従させます。

これらの階層構造は通常、異なる研究室の異なる人々によって作成され、細心の注意を払って組み立てられます。動作（例えば、「カップが赤ければ拾い上げ、そうでなければ待機する」など）は、状態機械または動作ツリー、つまりロボットの段階的な実行手順を示すフローチャートとして符号化されます。

この方式の利点は明らかです。予測可能で、安全基準を満たしています。だからこそ、あなたの車には効果的なABSアンチロックブレーキシステムが搭載されているのです。

欠点も同様に明白だ。このようなロボットは、エンジニアが想定したシナリオ内でのみその知能を発揮できる。新しい工場、新しい照明条件、あるいは新しい色のカップに置かれると、故障してしまう。その汎用性は事実上ゼロだ。

第二に、機械学習が静かに介入する。

2010年代に入ると、ディープラーニングは知覚層の問題に取り組み始めた。ImageNet画像分類タスクで人間を凌駕する畳み込みニューラルネットワーク（CNN）を再学習させることで、物体の把持点を検出したり、部屋の家具を分割したり、人間の姿勢を認識したりすることが可能になった。こうして、技術スタックの最上位にある「知覚」層を手動で設計する必要がなくなり、直接学習させることができるようになったのだ。

その後、学習メカニズムは「制御」層にも広がりました。カリフォルニア大学バークレー校、DeepMind、OpenAIの研究者たちは、強化学習（ロボットエージェントがシミュレーション環境で何百万回も試行錯誤し、効果的な行動を強化すること）によって、驚くほど巧みな歩行、手を使った物体操作（2019年のOpenAIによる片手でのルービックキューブ解法は画期的な出来事でした）、そして様々な地形に適応した移動戦略を生み出すことができることを示しました。

もう一つの並行研究の方向性は、模倣学習、しばしば行動クローニングと呼ばれるもので、人間がロボットを遠隔操作してタスクを完了させようとする数百回の試みを記録し、ロボットが観察した内容に基づいて人間がどのような行動をとるかを予測するようにニューラルネットワークを訓練するものです。

問題の核心は、学習した戦略がそれぞれ狭すぎる点にある。赤いブロックを拾うようにネットワークを訓練しても、黄色いカップの扱い方はわからない。芝生の上を歩くように訓練しても、タイル張りの床では転倒してしまう。汎化能力は、解決すべき重要な課題として残っている。

注目すべきは、この時期に、今日でもほぼすべてのものを支えている基盤となるインフラストラクチャが登場したことだ。それは、ロボットオペレーティングシステム（ROS、2007年11月に初リリース）である。ROSは、WindowsやLinuxのような従来の意味でのオペレーティングシステムではなく、汎用ロボットパイプラインシステムであるミドルウェアフレームワークだ。これにより、「カメラノード」、「ナビゲーションノード」、「ロボットアームコントローラノード」、その他数十ものノードが、共有バスを介してメッセージをパブリッシュおよびサブスクライブすることができる。

ROS2の最新バージョンは、スタンフォード大学の研究室から中国のヒューマノイドロボットスタートアップまで、世界中の科学用および商用ロボットのほぼすべてにおいて、例外なく基盤レイヤーとして動作しています。人々がロボットの「オペレーティングシステム」について語る場合、ほぼ例外なくROS2と、その上で動作する様々な知覚、計画、制御ソフトウェアパッケージを指しています。

 ROS2：これはオペレーティングシステムではなく、独立したロボットソフトウェア同士が通信できるようにする汎用的な伝送路です。

III：ロボット工学分野におけるLLMの応用

そして、ChatGPTが誕生した。

突然、LLM（限定学習モデル）のようなものが現れた。これは簡単な英語の指示を読み、多段階の推論を実行し、コードを記述し、関数を呼び出すことができた。ロボット工学の専門家たちは、これが長年解決しようと苦心してきた欠けていたピースだとすぐに気づいた。家庭やオフィスでロボットに有用なタスクを実行させる上で最も難しいのは、多くの場合、運動制御ではなく、人間とロボットの相互作用である。つまり、人間はロボットに何をすべきかをどのように伝え、ロボットはその目標を、すでに実行方法を知っている最小単位のアクションにどのように分解するのか、ということだ。

LLMをロボット工学に適用する最初の研究段階では、言語モデルをROS上に構築された自然言語コンパイラとして扱いました。そのパターンは以下のとおりです。

ユーザーは英語で「キッチンカウンターからコーヒーカップを持ってきて、私のテーブルの上に置いてください」と言いました。
LLMは、ロボットが利用可能なアトミックスキルのリストに基づいてプランを生成します。これは、関数呼び出しのシーケンス、ステートマシン、またはXMLで記述されたビヘイビアツリーのいずれかになります。
ROS2ノードは計画を段階的に実行します。いずれかのステップで失敗した場合、失敗情報がLLMに報告され、LLMは計画を再実行します。

2022年にGoogleが発表したSayCanプロジェクトは、このアイデアを非常に簡潔にまとめたものです。LLMがスキルを提案し、独立した「可用性」モデルが各スキルの成功確率を評価し、ロボットは最も高い総合スコアを持つスキルの組み合わせを選択します。ファーウェイ研究所が主導するROS-LLM、ROSGPT、ROSAといったオープンフレームワークが、このモデルを推進してきました。

これは確かに大きな進歩です。突然、ロボットに「テーブルを拭いて、リサイクル品を青いゴミ箱に入れて」と指示すると、ロボットは合理的な動作を試みるようになりました。しかし、いくつかの問題がまだ残っていることに注意が必要です。言語モデルはまだ計画段階にとどまっています。実際の動作コマンドは、基盤となる、綿密に設計された、あるいは特別に訓練されたコントローラーによって生成されます。言語モデルは単なるインテリジェントなスケジューラーであり、実際の運転は担っていません。

4. 視覚言語運動モデル（VLA）：脳がロボットを操作し始めるとき

北京にあるガルボット社の自動薬局で、キーノン社製のXMAN-R1ロボットが棚から薬を取り出している。価格はわずか10万ドルだ。

次の飛躍はさらに困難かつ重要なものとなるだろう。研究者たちは、さらに野心的な問いを投げかけている。モデルが動作計画だけでなく、動作コマンドを直接生成できたらどうだろうか？カメラ画像と音声コマンドをニューラルネットワークに直接入力し、次のミリ秒における関節の動きを取得できたらどうだろうか？

これは視覚・言語・動作（VLA）モデルと呼ばれるもので、現在では人型ロボットや四足歩行ロボットの分野における主流のパラダイムとなっている。

広く知られるようになった最初の視覚言語ロボットは、2023年にGoogle DeepMindが発表したRT-2です。その独創性は、大規模な視覚言語モデル（画像の説明と質問応答用に既に訓練済み）を使用し、ロボットのデモンストレーションデータで継続的に訓練する一方で、ロボットの動作を予測すべき別の種類のラベルとして扱う点にあります。元々は「猫がクッションの上に座っている」と出力できた同じニューラルネットワークが、今では「右足を3cm前に動かし、足を閉じ、5cm上げる」という一連のラベルを出力できるようになりました。推論と動作はどちらも同じモデル内で完結します。

そして2024年半ば、スタンフォード大学を中心とするチームが、Open X-Embodimentデータセットで学習させた70億個のパラメータを持つオープンソースのVLAモデル、OpenVLAをリリースした。このデータセットには、21の研究機関から集められた100万件以上の学習クリップが含まれており、22種類のロボットボディを網羅している。これにより、Google以外の誰もが汎用ロボットモデルをダウンロードして改造できるようになったのはこれが初めてであり、この分野は一夜にして大きく変革された。

現在、主要な超大型レーザーアレイ（VLA）の数は少ないものの、その開発は急速に進んでいる。

物理的知能のπ0とπ0.5：優れたタスク適応能力。
NVIDIA Isaac GR00T N1.7：オープンウェイトで商用ライセンスを取得しており、ヒューマノイドロボット向けに設計されています。現在、ほとんどの中国のハードウェア企業が自社データを用いた事後学習に使用しているモデルです。
図はAI社のHelixと新型のHelix-02：独自の技術だが、アーキテクチャ的に重要な意味を持つ。
AgiBotのGenie Envisioner：中国の世界観モデルに基づいたプラットフォーム。
SmolVLA、NORA、ACoT-VLA、CogACT：学術界では、さまざまな設計方向を模索するVLA（超大型レーザーアレイ）がますます多く登場している。

VLAの仕組み（数式を用いない説明）

VLAは、3つの入力信号を1つの出力信号に統合するものと考えることができる。

最初のデータストリームは視覚データです。RGBカメラ（場合によっては深度センサーやLiDAR）、そして場合によっては指先の触覚センサーからのデータは、ビジュアルエンコーダー（通常はDINOv2やSigLIPのようなTransformerモデル）によって処理され、ロボットが見ているものを要約した数百個の「ビジュアルトークン」に各画像が圧縮されます。

2つ目のデータストリームは言語です。あなたのコマンド（「ドライバーを渡して」）は、ChatGPTと同様にトークンに変換されます。

これら2つのデータストリームは連結され、Transformerの「ステム」（通常はQwen3やLlamaのような小規模なオープンソース言語モデル）に入力されます。このステムは推論を担当し、入力された情報と要求された情報を組み合わせて処理を行います。

3つ目のデータフローは、反対側から流れ出るアクションです。ここで様々なアーキテクチャ設計が分岐します。

離散的な動作トークン：このモデルは、ChatGPTが単語を生成するのと同様に、関節角度やエンドエフェクタの位置にデコードできるトークンを直接生成します。この方法はシンプルですが、高周波数で実行すると途切れが発生する可能性があります。
フローマッチングモーションヘッド：独立した小型ネットワークがバックボーンからの出力を受け取り、ノイズを除去して、滑らかな関節位置軌跡を生成します。これは画像拡散モデルに似ていますが、動きを生成する点が異なります。π0はまさにこの動作を行い、より滑らかで自然な動きを実現します。
アクションブロック：次の単一の命令を予測するのではなく、次の0.5秒間の命令セットを一度に予測することで、ジッターを平滑化します。

 VLAモデルでは、2つの入力ストリームが入力され、動作指令が出力され、推論と行動が単一のネットワークに融合される。

これは極めて重要なアーキテクチャ上の転換点です。推論と行動がもはや分離されていないのです。ニューラルネットワークにカップを認識するように教えることは、同時にカップを掴む方法も教えることになります。この結合こそが、VLAが汎化能力を持つことを可能にし、従来のものにはできなかったことを実現するのです。

5：デュアルブレイン戦略：LLMとVLAの連携方法

マーケティングにおいて明示的に説明されることは稀な点ですが、現在最も高性能なヒューマノイドロボットは、単一のVLAシステムではなく、異なる速度で動作する2つのモデルを相互に通信させながら動作させています。これは、ダニエル・カーネマンの心理学的枠組みから借用した、デュアルシステム、あるいはシステム1/システム2アーキテクチャと呼ばれることがあります。カーネマンの理論では、人間は高速で直感的な脳と、低速で熟慮的な思考を司る脳を持っているとされています。

Figure AI社のHelixはこのデザインを定番とし、今では（そのバリエーションも含めて）ほぼあらゆる場所で見かけるようになりました。特に注目すべきは、NVIDIA社のGR00T N1.7がこのデザインを採用していること、そしてほとんどの中国製ヒューマノイドロボットもこれを採用していることです。その構造は以下のとおりです。

システム2（S2）：思考の遅い脳。70億個のパラメータを持つ視覚言語モデルで、約7～9Hz（つまり、1秒間に7～9回）の周波数で動作します。その役割は、場面を観察し、指示を解析し、複数ステップの推論（例：「ボウルはシリアルボックスの後ろにある。まずボックスを動かす必要がある」）を実行し、高レベルの意図（通常は単語そのものではなく、コンパクトな内部ベクトルのセット）を発行することです。
システム1（S1）：高速応答脳。約8000万個のパラメータを持つ、はるかに小型の視覚運動戦略モデルで、200Hzで動作する。S2から意図ベクトルと最新のセンサーデータを受け取り、連続的な関節コマンドを出力する。実際には「考える」のではなく、単に反応する。

最近、Figure社のHelix-02にSystem 0が追加されました。両耳システムの下に位置するSystem 0は、第3の認知層ではなく、反射層です。これは1kHzの周波数で動作する1000万個のパラメータを持つネットワークで、基本的なバランスと全体的な協調性を処理する役割を担い、10万行を超える手書きのモーションコントロールC++コードをニューラルコントローラーに置き換えています。System 0は後天的に獲得した脊髄のようなものと考えてください。推論や計画は行わず、体を直立させ、協調性を維持する役割のみを担い、思考は上位の両耳システムによって行われます。

現代のヒューマノイドロボットのデュアルブレイン構造：システム2はゆっくりと思考し、システム1は素早く反応する。その下には、バランスの維持、触覚接触、全身の協調運動に使用されるシステム0の反射層がある。

この区分は、物理的な限界に起因する。動作指令が200ミリ秒に1回（大型VLAの動作速度）しか発行されない場合、ロボットの動きは水中を移動するのと同じくらい鈍重になる。動作指令は、制御対象の関節の自然な振動よりも速く更新する必要があり、つまり毎秒数百回、あるいは数千回の更新が必要となる。70億個のパラメータを持つTransformerモデルは、バッテリー駆動のロボットではそのような高速動作は不可能である。

したがって、認知タスクは分割される。大きくて処理速度の遅いモデルは思考を担当し、小さくて処理速度の速いモデルは行動を担当する。両者は英語でコミュニケーションをとるのではなく、学習された潜在ベクトルを介してコミュニケーションをとる。つまり、処理速度の遅いモデルが抽象的な目標を提示し、処理速度の速いモデルがそれを解釈する方法を知っているのである。

6：クラウドコンピューティング、エッジコンピューティング、そして「頭脳」の配置。

これらの計算は一体どこで行われているのでしょうか？

今日、ロボットチームの間では、安全確保に不可欠なコア制御ループはローカルで動作しなければならないという、ほぼイデオロギー的な強いコンセンサスが形成されている。これには2つの理由がある。

遅延。楽観的な見積もりでも、Wi-Fiや携帯電話ネットワークの往復時間は30～80ミリ秒です。しかし、アクションコマンドは1～5ミリ秒ごとに更新する必要があります。このようなネットワークループでは、正常に機能することはできません。

信頼性。ロボットは工場、倉庫、厨房、病院など、さまざまな場所で稼働しています。ネットワーク接続はいつでも途切れる可能性があります。ロボットがWi-Fi接続を失った直後に動作を停止してしまうと、安全上の危険が生じます。

したがって、現代の分類はおおよそ以下のようになる。

オンボード（ローカル）、NVIDIA Jetson ThorまたはAGX Thorモジュールに類似したデバイス上で動作（約2,000 TFLOPS、128 GBメモリ、40～130 W TDP）：

S0/S1のすべての機能：バランス、運動、および微細運動制御。
VLA（システム2）自体も、ハードウェアの制約に対応するため、FP8またはFP4形式への量子化が進んでいます。現在では、20億から70億のパラメータ範囲を持つモデルをデバイス上で実行できます。
センシング、センサーフュージョン、セキュリティ監視プログラムなど、あらゆる運用に対応可能なプログラム。

クラウドまたはリモートサーバー（存在する場合）：

対話型インターフェース（「ねえロボット、夕食は何にしたらいい？」）：これらのインターフェースは遅延を許容できます。
クラスタ学習：数千台のロボットが遠隔操作データをサーバーに送信し、そのデータが集約されて次期モデルが作成される。
大規模かつ長期的な計画が必要であり、フロンティア規模のモデルを採用することも考えられる。
オペレーター向けダッシュボードと監視機能。

さらに、ミドルウェア層も拡大しており、工場や倉庫に設置されたローカルエッジサーバーが、数ミリ秒の低遅延でローカルネットワークを介してロボットクラスターと通信します。この層には、個々のロボットが管理する必要のない高度なスケジューリングタスクを実行する、より大規模なLLM（ローカルローカルマシン）が配置される場合があります。

中国のヒューマノイドロボットブームはこの前提に基づいている。Unitree、AgiBot、IRON、Fourier、EngineAIなどがその例だ。これらのロボットはオンボードコンピューティング能力（通常はJetson、時にはHuawei Ascendなどの国産チップを使用）を備え、クラウドは制御ループではなく、群知能学習や対話インターフェースに利用されている。

ロボットの頭脳が実際に動作する場所：安全性が極めて重要なループはローカルで実行され、クラウドは待機可能なタスクを処理する。

7．なぜオープンソースモデルが静かに注目を集めるようになっているのか？

デモだけを見ると、この分野は資金力のある少数のアメリカ企業に支配されているように思えるかもしれません。しかし、実際はもっと複雑です。物理AIの開発ペースは、誰でもダウンロードして微調整できるオープンソースの重みモデルによって大きく左右されています。

以下のモデルは数は少ないものの、非常に重要な意義を持つ。

OpenVLA（スタンフォード大学）：初のオープンソース7B汎用ロボットモデル。
NVIDIA Isaac GR00T（N1、N1.5、N1.7）：オープンソースの重みが間もなく公開され、商用ライセンスも間もなく提供される予定です。このモデルは、数万時間に及ぶ人間の自己中心的な動画で学習されています。GR00T N1.7は2026年3月にリリースされ、その時点でヒューマノイドロボットを所有するユーザーは誰でも、そのデュアルシステムアーキテクチャを無料で利用できるようになります。
物理的知能におけるπ0：研究のための重みを公開する。
NVIDIA Cosmos：オープンワールドの基盤となるモデル。
AgiBot World：上海を拠点とするスタートアップ企業が提供する、遠隔操作可能なヒューマノイドロボットのデモンストレーションを収録した大規模なオープンソースデータセット。
Hugging FaceのLeRobot：前述のすべてのプラットフォームのハブとなっているオープンライブラリ。
Mimic Robotics社のmimic-video：従来のVLAよりも10倍効率的にサンプルを生成できるオープンソースのビデオアクションモデル。

これは2つの点で重要です。まず、ロボット関連のスタートアップ企業は、ベースモデルの事前学習に数千万ドルもの費用をかける必要がなくなりました。GR00Tやπ0といった既存のモデルをベースに、自社のロボットから得たデータを使って事後学習を行うことができるようになったのです。Unitree Robotics、Zeppelin、Booster、Galbotといった企業や、その他数十社の中国の小規模企業がまさにそうしています。従業員数百人程度の企業が、歩行、会話、衣類の折りたたみまで可能なヒューマノイドロボットを製造できるのは、オープンソース技術の恩恵を受けているからです。

第二に、オープンソースモデルはセキュリティ問題を解決する唯一現実的な方法です。工場内のロボットに完全にクローズドソースのモデルが搭載され、その推論ロジックを外部から一切把握できない場合、規制上の悪夢となることは間違いありません。オープンソースモデルであれば、監査担当者、研究者、オペレーターは、ロボットが実際にどのような学習データに基づいて動作しているかを真に検証することができます。

8．未解決の問題は何か？

ロボットのデモ動画をたくさん見てきた人なら、ロボットの不具合動画も数多く目にしているはずです。現行世代のLLM+VLAロボットは確かに素晴らしい性能を誇りますが、同時に重大な制約も抱えています。以下にその問題点をいくつか挙げます。

作業は途中で再開できます。VLAは、予期せぬ変化への対応能力において、これまでのどの技術よりも優れています。しかし、実際に問題が発生した場合（例えば、把持ミス、物体の転がり、作業エリアへの人の侵入など）、軌道修正が依然として課題となります。ロボットは、失敗した動作を盲目的に繰り返してしまう可能性があります。
サンプル効率。VLAをゼロから訓練するには、数万時間分の遠隔運用データが必要となる。一方、人間は新しいツールの操作方法を数分で習得できる。この効率の差は非常に大きい。
異種間汎化。スタンフォード大学の研究室でFrankaロボットアームを用いて訓練されたモデルは、深センの倉庫にあるUnitreeヒューマノイドロボットに完全に適用することはできない。両者は物理的な形状が異なるためである。
長期的なタスク。30 ～60秒以上続く継続的な動作を必要とし、複数のサブ目標を含むタスクは、目標から逸脱しやすい傾向があります。「朝食を作って」といったタスクは、常に達成不可能に思えるでしょう。
基本的な物理学。VLAは理解ではなく模倣によって訓練されています。グラスが倒れたときに水がこぼれる原理を真に理解しているわけではありません。いくつかの例を見ただけで、パターンマッチングを使って次に何が起こるかを予測しているのです。
空間推論能力。彼らはマルチモーダルであるにもかかわらず、「障害物を通り抜けるのではなく迂回する」とか「物が倒れないように積み重ねる」といった課題においては、驚くほど弱い。

こうした一連の弱点が最終的に、業界が全く異なるモデルに賭け始めるきっかけとなった。

9：ワールドモデル

ロボットに、行動を予測するのではなく、その行動の結果を予測するように訓練したらどうなるか想像してみましょう。

ワールドモデルとは、現在の世界の状態（通常はビデオクリップまたは一連のフレーム）と事前に設定された動作に基づいて、次に世界がどのように変化するかを予測するニューラルネットワークの一種です。簡単に言えば、ステアリングホイールを備えた学習型ビデオ予測器と考えることができます。カメラ映像の最後の1秒間を見せて、「ロボットは腕を10センチメートル前に動かす」と指示すると、次に何が起こるかを予測するリアルなビデオを生成できます。

なぜこれが重要なのか？

世界モデルが利用可能になれば、ロボットは行動する前に考えることができる。3つか4つの異なる候補となる手を事前に計画し、それぞれの手を予測し、評価し、最適な選択肢を選ぶことができる。これらすべてはモーターが動く前に行われる。これはまさにチェスエンジンの仕組みと同じだ。チェスエンジンは手を記憶するのではなく、未来をシミュレーションする。このような機能は、現実世界の複雑さをシミュレートできるほど正確なモデルがこれまで存在しなかったため、物理ロボットの分野ではこれまで実現不可能だった。

ワールドモデルを用いることで、ロボットはモーターを始動させる前に、シミュレーションを行い、スコアを付け、最適な選択肢を選ぶことができる。

2026年の世界モデルはどのようなものになるだろうか？

現在、先進的な世界モデルには多くの種類があり、その発展は急速に進んでいます。以下にいくつかの例を挙げます。

NVIDIA Cosmos：オープンワールドの基盤となるモデル群で、Cosmos Predict 2.5（生成モデル）、Cosmos Transfer 2.5（制御可能なシミュレーションモデル）、Cosmos Reason 2（ロボット工学向けビジュアル言語推論器）、そして最新のCosmos Policyが含まれます。Cosmos Policyはさらに一歩進んで、ワールドモデルの事後学習を通じて制御用のアクションを直接出力します。Cosmosは数万GPU時間分のビデオデータを使用して学習されます（Cosmos Predict 2.5はこのファミリーのワールドモデルです）。
DeepMind Genie 3：テキストプロンプトに基づいて完全にナビゲーション可能な環境を生成するインタラクティブな世界モデルで、毎秒24フレームで動作し、数分間安定して実行できます。元々はゲーム環境向けに設計されました。
Meta V-JEPA 2：事前学習には100万時間以上のオンラインビデオを使用し、その後、わずか62時間のロボットビデオを用いた動作条件付け学習を実施しました。様々な研究室の実際のロボットアームにおいて、特別なタスク学習なしで80%のゼロショットピックアンドプレース成功率を達成しました。「JEPA」方式は、他の方式とは構造的に異なります。
DeepMind Dreamer 4：オフラインデータのみを使用し、環境との相互作用を一切行わずに、Minecraftでダイヤモンドを収集するタスク（2万ステップ）を学習しました。これは、仮想世界においても真の強化学習が可能であることを証明しています。
AgiBot社のGenie Envisionerは、中国発の統合型世界モデルプラットフォームであり、3,000時間以上にわたる実世界のヒューマノイドロボット操作動画を用いて学習されています。予測される展開軌道と実行可能な動作軌道の両方を生成できます。AgiBot社は、基幹ネットワークとしてNVIDIA Cosmos Predict 2を使用し、独自のデータを用いて事後学習を実施しています。これは、前述の「オープンソース技術スタック＋独自データ」モデルを完璧に体現しています。
トヨタ研究所のコスモスベースの世界モデル：遠隔操作データの拡張とナビゲーションのために。

 2025年から2026年にかけて最も重要な世界モデル6選。それぞれが、機械が物理学をどのように学習すべきかについて、異なるアイデアを提案している。

10：代替アーキテクチャ。この分野はまだ解決されていない。

世界モデルを構築するための単一の標準は存在しない。アーキテクチャに関する議論は、AI分野における最も興味深い継続的な議論の一つであり、将来のロボットの能力に直接影響を与える。以下の3つの陣営は注目に値する。

ピクセルレベルのビデオ拡散（Cosmos/Sora流派）：拡散モデルを用いて、将来のフレームにおける実際のピクセルを予測します。利点としては、合成データ生成器として機能し、これまで実現したことのない全く新しいロボットデモンストレーションをレンダリングできることが挙げられます。欠点としては、高コスト、物理法則に違反する場合がある、そして決して表示されないピクセルを予測するという無駄があることが挙げられます。

統合型埋め込み予測アーキテクチャ（JEPA、略してLeCun School）：個々のピクセルを予測するのではなく、次のフレームの抽象的な表現を予測します。テクスチャの詳細を破棄し、シーン内の物体の意味的な本質のみを保持します。その利点は、効率性と、動作に不可欠な要素に焦点を当てている点です。欠点は、使用が複雑であることです。V-JEPA、V-JEPA 2、および新しいJEPA-VLAハイブリッドモデルがこの分野を研究しています。

潜在行動ワールドモデル（Genie/Dreamer系）：この手法では、動画全体を行動構造を捉える潜在的な「行動言語」に圧縮する方法を学習します。ワールドモデルは、次に起こりうる行動に基づいて次の潜在状態を予測するように訓練されます。利点は、静止したウェブ動画で学習した後、少量の実際のロボットデータを追加できることです。欠点は、潜在行動は人間には理解できないため、セキュリティ分析が複雑になることです。

ピクセル拡散、JEPA、そして潜在的なアクション：同じ目標、異なる世界モデル構築方法

XI：世界モデルに基づくロボットの実践的応用

数年後を想像してみると、最先端のヒューマノイドロボットのアーキテクチャは、おそらく次のようなものになるだろう。

VLAは世界モデルを搭載しています。ロボットが新しい状況に遭遇すると、以下のような動作を実行します。

VLAは、フォローアップ措置に関するいくつかの候補案を提示している（これはまだ戦略段階である）。
世界モデルは、各候補の行動を捉え、1～3秒間の仮想動画をシミュレーションします。
審査員は、想定される結果に基づいて評価を行います。カップは拾われたか？何かが落ちたか？誰かにぶつかったか？
ロボットは最も高いスコアを獲得した動作を選択し、その動作の最初の部分のみを実行します。
実際のセンサーデータがフィードバックされ、このプロセスが周期的に繰り返される。

これはモデル予測制御と呼ばれる技術で、ロケットやクアッドコプターの安定化に長年用いられてきたものですが、手動で導出した物理方程式を学習済みの世界モデルに置き換えています。その拡張性は、誰かがキッチン環境向けにナビエ・ストークス方程式を作成したからではなく、世界モデルが数百万時間分のビデオデータで事前学習されているという点にあります。

その恩恵は段階的に現れる。

回復状況は改善している。もし何らかの対策が失敗した場合、世界モデルは複数の修正経路を想定し、最も有望な経路を選択することができる。
汎化能力が向上した。ネットワーク動画で学習された世界モデルは、遠隔操作ロボットのデータセットよりも数桁多い「物理現象」を経験している。
長期計画は実行可能になる。現実ではなく、想像の中で計画を立てよう。
シミュレーションと現実のギャップは縮小した。以前は、訓練結果を実世界のアプリケーションに適用できることを期待して、Isaac SimやNewton物理エンジンなどの専用シミュレーターを使用して訓練を行う必要があった。しかし現在では、実世界の動画に合わせた事前学習済みのシミュレーターを使用して訓練を行うことができる。そのため、ギャップは小さくなった。
合成データは爆発的に増加している。単一の世界モデルから、さまざまな照明条件、材質、物体配置を網羅した数百万もの異なるロボット軌道を、ほぼ無料で生成できる。これは、この分野における最大のボトルネックの一つを解決するものだ。

さらに、重要な安全上の利点もある。行動の結果をシミュレーションできるロボットは、あらかじめ設定されたルールに従うのではなく、将来起こりうる怪我の可能性を予測することで、危険な作業を拒否することができる。

移動方法には2種類あります。VLAは視覚情報に基づいて反応し、ワールドモデルロボットは移動前に思考します。

12：その他知っておくべきこと

真の核心問題はデータです。モデルにデータを与えなければ、世界中のあらゆるアーキテクチャ革新は無意味です。現在、遠隔操作（人間がVRデバイスを装着してロボットを人形のように遠隔操作すること）が主な技術的ボトルネックとなっています。ロボット企業の競争上の優位性は、モデル自体よりもデータ取得パイプラインにますます依存するようになっています。AIZ Roboticsはすでにオペレーターでいっぱいの倉庫を構築しています。NVIDIA GR00T N1.7の器用さスケーリング法則は、人間の一人称視点のビデオが増えると、ロボットの器用さが直接的かつ予測可能に向上することを示しています。これは、中国の構造的優位性の理由の一部でもあります。データ取得の労働コストが低いこと、より寛容な展開環境、サプライチェーンに対する政府の積極的な調整などです。

シミュレーションは並行宇宙である。NVIDIAのIsaac Sim、新しいオープンソースのニュートン物理エンジン（バージョン1.0は2026年4月に正式リリース予定）、そしてOmniverseプラットフォームにより、企業はロボットを現実世界に展開することなく、数百万もの並列シミュレーション環境でトレーニングすることができる。一見「ロボットの知能」に見えるもののほとんどは、実際にはシミュレーション環境で育成され、その後ハードウェアに移植されるのだ。

経済的メリットが現れ始めている。Unitreeは2025年に約5,500台のヒューマノイドロボットを納入し、2026年までに10,000台から20,000台に達する計画だ。平均価格は2年以内に85,000ドルから25,000ドルに下がった。UnitreeのR1は5,900ドルで販売されている。Noetix Bumiは1,400ドルで発売された。ヒューマノイドロボットのハードウェア価格は家電製品の価格帯に近づいているが、内部のAI技術はデモ製品にまだ遅れている。この差はいずれ縮まり、その時点で市場規模の拡大が業界全体に大きな影響を与えるだろう。

故障モードは奇妙に思える。LLMベースのロボットが誤作動を起こすと、従来のロボットでは起こり得ないような故障が発生することが多い。例えば、自信満々にミスを犯したり、特定の機能を「幻影のように」認識したり、自身のプランナーとの対話ループに陥ったりする。従来のロボット工学コミュニティは非常に懐疑的であり、この懐疑論は根拠のないものではない。彼らは、学習システムは安全に監視され、その動作が制限されなければならないと主張している。現在までに実用化されている最も信頼性の高いロボットはハイブリッド型で、VLAの頭脳は手作業で設計された安全ケージ内に設置されている。

「ChatGPTの瞬間」という比喩は、便利ではあるものの誤解を招く恐れがある。ジェンセン・フアン氏は、ロボット工学におけるChatGPTの瞬間が到来したと繰り返し述べている。彼がそう言うのは、NVIDIAがシャベルやツルハシを販売しているからだ。より正直な表現はこうだ。私たちは現在、物理AIのGPT-2の時代にいると言える。強力で印象的ではあるが、無人で運用できるほど強力ではない。急速に改良が進んでいるものの、爆発的な普及には至っておらず、むしろ緩やかではあるが着実に成長を続けている。

結論

玉樹四足歩行ロボットの進化（右から左へ）

ユーシュー氏のオフィスで行われたデモンストレーションでは、5体のG1ヒューマノイドロボットが武術を披露した。その動きは綿密に振り付けられ、搭載されたVLAコントローラーによって微調整され、遠隔操作者がスムーズな動作を監督した。根本的には、完全な自律動作ではなかった。しかし、知覚、計画、動作制御といったプロセス全体がニューラルネットワークに置き換えられていた。2年後、同じロボットは振り付けなしで同じ動きをこなせるようになった。なぜなら、動作全体を事前に設計し、最適なバージョンを選択していたからだ。

この記事で説明されている開発プロセス全体――手書きのコントローラーから機械学習による知覚、LLMプランナー、VLA、デュアルシステムアーキテクチャ、そして最終的には世界モデルへと至る過程――は、本質的にロボット知能の所在がゆっくりと変化してきた過程と言える。それはエンジニアの頭の中で始まり、手書きのコードへと進化し、知覚層、プランナー、そしてポリシー層へと発展した。そして今、最終的には世界そのものを学習するモデルへと向かっている。

変化が進むにつれ、ロボットはより多用途で、より適応性が高く、より有用になっていきます。この世界モデルの転換が成功すれば、ロボットは真に力を得ることになるでしょう。もはや「ロボットは何ができるのか？」ではなく、「ロボットに何をさせるべきか？」という問いが生まれるほど、ロボットは強力な存在となるのです。