2026年6月3日、ワールドラボのチームは、スタンフォード大学のフェイフェイ・リー教授と共同で、「ワールドモデルの機能的分類」という簡潔で飾り気のないタイトルの概念分析論文を発表した。論文の冒頭の一文は、業界の共通認識を即座に明らかにしている。「ワールドモデルは、今日の人工知能分野において最も重要でありながら、最も誤用されている用語の一つである。」
この発言の背景は、AI業界を追ってきた人なら誰でもよく知っているだろう。
2024年2月、OpenAIは「世界シミュレータとしてのビデオ生成モデル」と題した技術レポートとともに、ビデオ生成モデルであるSoraをリリースした。NVIDIAのロボティクス担当ディレクターであるジム・ファンは、LinkedInにコメントを残し、その後繰り返し引用されている。Soraは基本的に「唯一の行動として何もしないことしか許さない世界モデル」である。一方、公開されているレポートによると、テスラのAIチームは、完全自動運転システム内の予測コンポーネントを繰り返し「世界モデル」または「世界シミュレータ」と呼んでいる。ゲームエンジン、3D生成ツール、具現化されたインテリジェントモデルなど、さまざまな製品やテクノロジーが同じバスケットにまとめられ、同じタグが付けられている。
動画生成器、自動運転予測ネットワーク、ロボット制御モデル、物理エンジン――これらに共通点はあるだろうか?ほとんどない。しかし、これらはすべて「世界モデル」と呼ばれている。
2年以上続いていたこの概念的な混乱が、ついに体系的に解明されつつある。今回、フェイフェイ・リーのチームは、新しいモデルを発表したり、新しいベンチマークを提示したり、製品の機能を実演したりはしなかった。その代わりに、彼らはより根本的なことを行った。部分観測可能なマルコフ決定過程という理論的源泉に立ち返り、「世界モデル」として販売されているすべてのシステムを、同じ認知ループの3つの異なる機能的投影に還元したのだ。
投影方式には、レンダラー、シミュレーター、プランナーの3種類があります。World Labsの分類フレームワークでは、Soraや同様のビデオ生成モデルはレンダラーに分類されます。
なぜ一つの用語にこれほど多くの矛盾する意味が含まれるのだろうか?
この混乱の根本原因を理解するためには、まずより根本的な問いから始める必要がある。企業が「我々は世界モデルを構築している」と言うとき、それは一体何を意味しているのだろうか?
OpenAIにとって、Soraの目標は「動画で物理世界を理解し、表現すること」です。技術レポートによると、Soraは膨大な量の動画データから統計的なパターンを学習し、視覚的に妥当な画像を生成します。例えば、カップは落とせば割れ、紙飛行機は放せば飛び、人は歩くときに足を交互に振る、といった具合です。これらの画像は「物理法則を理解している」ように見えます。
テスラにとって、「ワールドモデル」とは、FSDシステムに組み込まれたニューラルネットワークであり、今後数秒間の道路利用者の軌跡を予測するものです。経路計画モジュールが安全な運転判断を下すためには、正確な3次元位置、速度、および向きを出力する必要があります。このモデルはピクセルを出力する必要はなく、ベクトルと確率分布を出力します。
ロボット企業にとって、「ワールドモデル」とは、ロボットアームがカップを左に5センチメートル押したときにカップが倒れるかどうかを予測できるようにする内部シミュレーション機構のことです。この機構は、物体の特性、接触力学、安定性を理解する必要があり、動作の実現可能性評価を出力します。
これら3種類の企業は、それぞれ全く異なる目標を持っている。映像制作企業はピクセル精度を重視し、自動運転企業は物理状態予測の精度を重視し、ロボット企業は行動の結果予測可能性を重視している。いずれも「世界モデル」を構築しているが、根本的に異なることを行っているのだ。
World Labsは記事の中で、核心的な問題に直接的に言及している。これらのシステムはすべて同じ名前で呼ばれているが、それは確かに「世界を理解する」という特定の側面を表しているからだ。しかし、それぞれは完全な認知サイクルにおける一つの段階しか完了させていないにもかかわらず、マーケティング用語、メディア報道、そして資本主義的な物語によって、完全な世界モデルとしてパッケージ化されている。
概念的な混乱を招くもう一つの要因は、用語そのものに内在する矛盾である。「世界モデル」という用語は壮大な物語性を帯びており、「動画生成モデル」や「動画予測モデル」よりも想像力を掻き立て、高い評価や資金調達の根拠としてより説得力があるように聞こえる。しかし、技術的な能力が人々の期待に応えられない場合、その概念がプロパガンダの道具へと堕落してしまうのは避けられない。
1960年代に遡って考えると、理想的な「世界モデル」とはどのようなものだったのだろうか?
World Labsの分類フレームワークは、一見すると古代の理論である部分観測マルコフ決定過程に基づいている。
このフレームワークは、エージェントとその環境との間の相互作用の完全なサイクルを記述する。エージェントはある特定の環境状態にあり、環境状態を変化させる行動を実行する。エージェントはセンサーを通して部分的な観測データを取得し、それが内部状態の更新をトリガーする。更新された理解に基づいて次の行動が実行される。このサイクルは継続的に繰り返される。
この枠組みの中で、「世界モデル」の完全な機能には、次の3つの段階が含まれるべきである。状態(人間の目で見えるピクセル、またはセンサー、点群などによって収集されたピクセル)から観測値を生成すること、行動と現在の状態から次の状態を推論すること(物理的変化を予測すること)、そして観測値と目標から行動を生成すること(意思決定計画)。
言語モデルはテキストシーケンスの統計的パターンを学習するのに対し、世界モデルは空間と時間の統計的特性を学習します。光がさまざまな表面でどのように反射するか、物体が重力下でどのように動くか、剛体衝突後にエネルギーがどのように伝達されるか――これらは世界モデルが捉えようとするパターンです。
World Labsチームは記事の中で、現在市場に出回っている「ワールドモデル」と呼ばれるシステムはすべて、実際には上述の完全なサイクルにおける単一の機能リンクを投影したものに過ぎないと指摘している。システムによっては「状態から観測へ」のみをレンダリングするもの、状態推論を「行動から次の状態へ」のみ行うもの、計画を「観測から行動へ」のみ行うものなどがある。それぞれがサイクルの断片を捉えているにもかかわらず、完全なサイクルを表しているかのように謳っているのだ。
この分析フレームワークの価値は、マーケティング上の美辞麗句を超越した比較フレームワークを提供する点にある。企業がどのように製品をパッケージ化しようとも、POMDPサイクルに戻してその投入要素、産出要素、そして不足している要素を検証すれば、その能力の限界が容易に明らかになる。
レンダラー、シミュレーター、プランナー:3つの投影法の能力限界
World Labsの分類では、最初のカテゴリは「レンダラー」と定義されています。彼らの主な目標は、人間の視覚認識に合わせた、高精細でピクセルパーフェクトな出力を生成することです。入力は環境状態の表現(テキストによる説明、3Dシーンのパラメータ、または暗黙的なエンコーディングなど)であり、出力は連続する一連のフレームです。
このレンダリングエンジンは、物理的な正確さよりも視覚的なリアリズムを重視して最適化されています。World Labsの記事では、レンダリングエンジンで生成された建物は構造力学の方程式を実際に解いていないため、「揺れている」ように見える場合があると明記されています。液体の飛沫はリアルに見えるかもしれませんが、液体の量、流量、衝撃力は現実世界の物理量と全く一致しない可能性があります。したがって、このようなモデルは、建築設計、ロボットのトレーニング、または物理的に正確なシミュレーションを必要とするタスクには使用できません。
GoogleのGenie 3、様々なテキスト動画変換モデル、そしてほぼすべてのAI動画生成ツールはこのカテゴリーに属する。Soraも間違いなくその一つだ。
2つ目のカテゴリーは「シミュレーター」です。その主な目的は、人間向けの視覚情報を生成することではなく、後続の計算に使用できる正確な状態を生成することです。入力は現在の環境状態と外部の力(または作用)であり、出力は現実世界の法則に物理的にも幾何学的にも忠実な次の状態です。シミュレーターが出力する状態は、応力解析、エネルギー消費量の計算、衝突検出などに使用できるほか、レンダリングへの入力として視覚情報を生成するためにも使用できますが、その真価は状態自体の計算可能性にあります。
NVIDIA Omniverseはこの種のシステムの典型的な例です。これはネイティブなAIモデルではなく、従来の物理エンジンとAIアクセラレーションされた計算を統合したデジタルツインプラットフォームです。World Labsは記事の中で、シミュレーターはレンダリングとプランニングの間の橋渡し役を果たすものの、高品質な3D物理アノテーションデータの不足が大きなボトルネックになっていると指摘しています。World Labsは記事の中で、このようなモデルのトレーニングに使用されるデータは、インターネット上で入手可能なビデオデータよりも桁違いに少ないと推定しています。
3つ目のカテゴリーは「プランナー」です。入力は観測データ(カメラ映像、LiDAR点群、触覚センサーの読み取り値など)と目標指示であり、出力は次に実行すべきアクションです。VLA(Vision-Language-Action)モデルやワールドアクションモデルはこのカテゴリーに属します。
これら3つのカテゴリの違いは、技術的なアプローチにおける些細な相違ではなく、根本的な機能的差異である。レンダラーは人間が見るためのピクセルを出力し、シミュレーターは機械が計算するための状態を出力し、プランナーは実行者が実行するためのアクションを出力する。システムは複数の機能を同時に持つことができるが、「ワールドモデル」と呼ばれるほとんどのシステムが本質的にレンダリングのみを実行する場合、「レンダリング」を「世界の理解」と同一視することは、深刻な認知的ミスマッチとなる。
2年にわたる議論:ソラは世界の模範となる存在なのか?
2024年2月、OpenAIは「世界シミュレーターとしてのビデオ生成モデル」と題した技術レポートとともにSoraをリリースした。この用語は、学術界と開発者コミュニティでたちまち激しい議論を巻き起こした。
支持者たちは、Soraが生成した動画は3D空間における一貫性、物体の永続性、そして物理的な相互作用に対するある種の直感的な理解を示していると主張する。噛み跡が残るハンバーガーや、雪の中を走る犬が雪片を蹴り上げる様子など、細部にまでこだわった描写は、このモデルが何らかの物理法則を学習したことを示唆している。
反対派の主張の核心は、強化学習における世界モデルの古典的な定義、すなわち、世界モデルは行動に基づいて状態遷移を予測できなければならないという点にある。つまり、現在の状態と行動入力が与えられた場合、モデルは行動後の次の状態を出力する必要がある。Soraはこれができない。ユーザーはSoraに「あのカップを左から押して」と指示しても、カップが倒れるかどうか、どの方向に倒れるか、破片がどこに飛ぶかを観察することはできないのだ。
ジム・ファンのコメントは、この矛盾を的確に指摘している。「Soraは基本的に世界モデルだが、唯一のアクションとして何もしない(no-op)しか許容しない」。つまり、Soraは時間の経過に伴う環境の変化を予測するものの、これらの変化は外部からの介入の影響を受けず、ビデオデータ内の固有の因果関係に沿ってのみ展開される。Soraは対話的な推論を行っているのではなく、受動的に観察された一連の流れを継続しているに過ぎないのだ。
Redditのr/MachineLearningサブレディットでは、多くの強化学習研究者がより厳しい批判を表明している。行動に基づいて状態遷移を予測できないシステムは、世界モデルとは呼べず、ビデオ予測モデルとしか呼べない、というものだ。
World Labsの分類フレームワークは、この議論に明確な答えを与えてくれます。POMDPループでは、アクションが状態遷移を促す重要な入力です。この入力が欠けているシステムは、完全な認知ループにおける「観測生成」段階の単なる投影にすぎません。Soraはレンダリング装置であり、完全な世界モデルでもなければ、ましてや世界シミュレーターでもありません。
しかし、これはSoraに価値がないという意味ではありません。レンダラーは別の問題を解決します。それは、人間の視覚的期待を満たすビジュアルを生成する方法です。この問題はそれ自体が非常に難しく、莫大な商業的価値があります。問題は、レンダリング機能を「世界を理解する」能力としてパッケージ化することで、技術意思決定者や投資家を誤解させ、これらのモデルがすでに物理的な推論や身体的な相互作用を実行する能力を持っているという誤った印象を与えてしまうことです。
概念明確化の産業的価値
「世界モデル」の定義の境界を明確にすることは、単なる言葉遊びの学術的な演習ではない。それは、技術選定、投資判断、そしてAIの能力に対する一般の人々の理解に直接影響を与える。
製造会社がロボットのトレーニングに特定の「世界モデル」を使用するかどうかを検討する際、そのモデルがレンダラー、シミュレーター、プランナーのいずれであるかを把握することは、何百万ドルもの試行錯誤を避けるために不可欠です。映像を生成するだけのモデルは、たとえ映像がどれほどリアルであっても、物体に作用する力、その軌道、衝突の結果を正確に計算する能力を代替することはできません。
投資機関にとって、3種類の予測を区別することは、プロジェクトがテクノロジースタックの中でどのような位置づけにあるのかをより正確に把握できることを意味します。例えば、「ワールドモデル」を自称するスタートアップ企業が、その製品が本質的にレンダリングツールであれば、競合相手はデジタルツインプラットフォームやロボット制御モデルではなく、ビデオ生成企業となります。これは、市場規模の推定方法やベンチマーク企業の選定方法に直接影響を与えます。
学術界にとって、明確な分類は比較可能な基準を確立するための前提条件である。「世界モデル」という用語が一般化され続けると、研究者は何が改善や画期的な成果を構成するのかを定義することが難しくなり、査読は曖昧さに基づいたものになってしまうだろう。
World Labsは記事の中で、概念を明確にすることは対立を生み出すことではないと指摘している。今後の方向性は、3種類の投影方式の融合にある。カップの物理的特性を真に理解したモデルであれば、その視覚的な外観を描写し、カップが倒れる物理的プロセスをシミュレートし、ロボットアームが安定してカップをつかむ方法を計画できるはずだ。しかし、技術がそこまで発展するまでは、融合を想像するよりも、それぞれの境界を認識する方が現実的である。
World Labsの記事によると、NVIDIA Omniverseに代表されるシミュレーターとデジタルツイン技術は、工場、倉庫、サプライチェーンなどの分野で1兆ドルを超える潜在市場をターゲットにしている。この数字はメーカー独自の評価に基づくものであり、市場が実際にこの規模に達するかどうかは、シミュレーターが高品質な3D物理データの不足というボトルネックを克服できるかどうかにかかっている。
現在の段階にあるAI業界にとって、最も重要な理解はごく単純なものかもしれません。それは、リアルな動画を生成することが物理世界を理解することと同義ではないということ、そして「世界モデル」と呼ばれることが実際に世界をシミュレートしていることを意味するわけではないということです。マーケティング用語に惑わされず、システムが実際にどのような入力を受け取り、どのような結果を出力するのか、そしてPOMDP(プログラミングオブジェクトモデリング)ループにおいてどのステップが欠けているのかを検証することが、その技術的能力の限界を判断する最も誠実な方法なのです。



