李飛飛團隊釐清「世界模型」概念，Sora只能算是渲染器

2026年6月3日，World Labs團隊與史丹佛大學教授李飛飛聯合發布了一篇概念分析文章，標題直白到幾乎沒有修飾：《世界模型的功能分類法》。文章開篇第一句話就戳破了一個行業默契：“世界模型是當今人工智慧領域最重要、也最被濫用的術語之一。”

這句話的背景，但凡關注過AI產業的人都不陌生。

2024年2月，OpenAI發布影片生成模型Sora，技術報告標題赫然寫著「影片生成模型作為世界模擬器」。 NVIDIA機器人總監Jim Fan當時在LinkedIn上留下一句後來被反覆引用的評論：Sora本質上是一個「只允許無操作作為唯一動作的世界模型」。另一頭，據公開報道，特斯拉AI團隊在公開場合多次將全自動駕駛系統內部的預測組件稱為「世界模型」或「世界模擬器」。遊戲引擎、3D生成工具、具身智慧模型，各類產品和技術都被塞進同一個籃子裡，貼上了同一張標籤。

一個視訊產生器，一個自動駕駛預測網絡，一個機器人控制模型，一個實體引擎，它們有什麼共同點？幾乎沒有。但它們都被叫做「世界模型」。

這場持續兩年多的概念混亂，終於有人試圖系統性地梳理清楚。李飛飛團隊這次沒有發布新模型，沒有公佈新基準，沒有展示任何產品功能。他們做了一件更基礎的事：回到部分可觀馬可夫決策過程這一理論源頭，把所有市面上被稱作「世界模型」的系統，歸約為同一個認知循環的三種不同功能投影。

三種投影分別是：渲染器、模擬器、規劃器。在World Labs的分類架構下，Sora及其同類影片生成模型，屬於渲染器。

一個術語為什麼能裝下如此多彼此矛盾的含義

要理解這場混亂的根源，需要先追問一個更基礎的問題：當一家公司在說「我們在做世界模型」時，它到底在說什麼？

對OpenAI來說，Sora的目標是「理解並在影片中呈現物理世界」。從技術報告看，Sora透過學習海量視訊資料中的統計規律，能夠產生符合視覺常識的畫面，杯子掉在地上會碎，紙飛機脫手會飛，人在走路時雙腿交替擺動。這些畫面看起來「懂物理」。

對特斯拉來說，「世界模型」是FSD系統中預測道路參與者在未來數秒內運動軌跡的神經網路。它需要輸出精確的3D位置、速度、朝向，供路徑規劃模組計算安全的駕駛決策。這個模型不需要輸出像素，它輸出的是向量和機率分佈。

對機器人公司來說，「世界模型」是讓機械手臂能夠預判「如果我把這個杯子向左推5厘米，它會倒嗎」的內部模擬機制。它需要理解物體屬性、接觸力學和穩定性，輸出的是動作可行性評估。

三類公司的目標完全不同。影片生成公司關心像素保真度，自動駕駛公司關心物理狀態預測的精確度，機器人公司關心動作後果的可推演性。它們都在做“世界模型”，但做的根本不是同一件事。

World Labs在文章中直指問題核心：這些系統之所以都被冠以同一個名字，是因為它們確實都承載了「理解世界」的某一個面向。但它們各自只完成了完整認知循環中的一個環節，卻被行銷語言、媒體報導和資本敘事包裝成了完整的世界模型。

概念混亂的另一個推手是術語本身的張力。「世界模型」這個詞自帶宏大敘事屬性，聽起來比「影片生成模型」或「影片預測模型」更有想像空間，更能支撐高估值和融資故事。當技術能力無法匹配大眾期待時，概念淪為宣傳工具就成了必然。

回到1960年代，完整的「世界模型」應該是什麼

World Labs的分類架構建立在一個看似古老的理論基礎上：部分可觀馬可夫決策過程。

這個框架描述的是一個智能體與環境互動的完整循環。智能體處於某種環境狀態中，它執行一個動作，動作改變環境狀態，智能體透過感測器獲得部分觀測，觀測觸發內部狀態更新，更新後的認知驅動下一個動作。循環往復。

在這個框架下，「世界模型」的完整功能應該包含三個環節：從狀態生成觀測（人眼看到或感測器收集到的像素、點雲等），從動作和當前狀態推演下一狀態（預測物理變化），從觀測和目標生成動作（決策規劃）。

語言模型學習的是文本序列的統計規律，世界模型學習的則是空間和時間的統計特性。光照如何在不同材質表面反射，物體在重力作用下如何移動，剛體碰撞後能量如何傳遞，這些才是世界模型要捕捉的規律。

World Labs團隊在文章中指出，目前市面上所有被稱為「世界模型」的系統，其實只是上述完整循環中某一個功能環節的投影。有的系統只做「從狀態到觀測」的渲染，有的只做「從動作到下一狀態」的狀態推演，有的只做「從觀測到動作」的規劃。它們各自截取了一個循環的弧線，卻被各自貼上了代表完整圓形的標籤。

這個分析架構的價值在於，它提供了一個超越行銷話術的比較座標系。不管一家公司怎麼包裝自己的產品，只要把它放回POMDP循環裡，看它輸入什麼、輸出什麼、缺什麼環節，它的能力邊界就暴露無遺。

渲染器、模擬器、規劃器，三種投影的能力邊界

World Labs的分類法中，第一類被定義為「渲染器」。它的核心目標是產生面向人類視覺感知的高保真像素輸出。輸入是某種環境狀態的表徵（可以是文字描述、3D場景參數或隱式編碼），輸出是一幀一幀的連續畫面。

渲染器優化的方向是視覺逼真而非物理精確度。 World Labs文章明確指出，渲染器生成的建築可能“搖搖欲墜”，因為它並不真正解開結構力學方程式；它產生的液體潑濺可能看起來很真實，但液體體積、流速和衝擊力可能與真實物理量完全不對應。所以這類模型不能用於建築設計，不能用於機器人訓練，不能用於需要物理上精確模擬的任務。

Google的Genie 3、各類文字轉影片模型、以及幾乎所有AI影片產生工具，都屬於這一類。 Sora當然也在其中。

第二類是「模擬器」。它的核心目標不是產生給人看的畫面，而是產生可供後續計算使用的精確狀態。輸入是當前環境狀態和外在作用力（或動作），輸出是物理和幾何上忠實於真實世界規律的下一狀態。模擬器輸出的狀態可以用來做應力分析、能耗計算、碰撞偵測，也可以作為渲染器的輸入來產生視覺化畫面，但它的核心價值在於狀態本身的可計算性。

NVIDIA Omniverse是這類系統的典型代表。它不是AI原生模型，而是一個融合了傳統實體引擎和AI加速運算的數位孿生平台。 World Labs在文章中評價，模擬器是連接渲染和規劃的橋樑，但高品質3D實體標註資料的稀缺是主要瓶頸。根據World Labs在文章中估計，用於訓練這類模型的數據，比網路上可取得的影片數據少幾個數量級。

第三類是「規劃器」。它的輸入是觀測資料（相機畫面、光達點雲、觸覺感測器讀數等）和目標指令，輸出是下一步該執行什麼動作。 VLA（視覺-語言-動作）模型和World Action Models都屬於這一類。

三大分類之間的差異，不是技術路線的細微分歧，而是根本性的功能分化。渲染器輸出像素給人看，模擬器輸出狀態給機器算，規劃器輸出動作給執行器跑。一個系統可以同時具備多種能力，但當大多數被叫做「世界模型」的系統本質上只做渲染時，把「渲染」等同於「理解世界」就是一種嚴重的認知錯配。

一場持續兩年的爭論，Sora到底是不是世界模型

2024年2月，OpenAI發布Sora，技術報告標題直接寫上了「影片生成模型作為世界模擬器」。這一用詞當即引發學術界和開發者社群的激烈爭論。

支持者認為，Sora生成的影片展示了3D空間一致性、物件持久性和對物理互動的某種直觀理解。一塊被咬過的漢堡會留下齒痕，一隻狗在雪地裡跑會濺起雪花，這些細節似乎表明模型學到了一些物理規律。

反對者的核心論點來自於強化學習領域對世界模型的經典定義：一個世界模型必須能夠基於動作進行狀態轉移預測。也就是說，給定當前狀態和一個動作輸入，模型應該輸出動作之後的下一個狀態。 Sora做不到這一點。使用者無法告訴Sora“從左邊推開那個杯子”，然後觀測杯子是否會倒、往哪個方向倒、碎片飛到哪裡去。

Jim Fan的評論精準抓住了這個矛盾：「Sora本質上是一個世界模型，只是它只允許無操作（no-op）作為唯一動作。」這句話的意思是，Sora確實在預測環境隨時間的變化，但這個變化過程不受任何外部幹預，只能沿著視頻數據中固有的因果鏈展開。它不是在做互動推演，而是在做被動觀測序列的續寫。

Reddit的r/MachineLearning版塊上，不少強化學習研究者表達了更尖銳的批評：不能基於動作進行狀態轉移預測的系統，不能叫世界模型，只能叫視頻預測模型。

World Labs的分類架構為這場爭論提供了一個定論式的答案。在POMDP循環中，動作是驅動狀態轉移的關鍵輸入，缺少此輸入的系統只是完整認知循環中「觀測生成」環節的投影。 Sora屬於渲染器，不是完整的世界模型，更不是世界模擬器。

但這不意味著Sora沒有價值。渲染器解決的是一個不同的問題：如何產生符合人類視覺預期的畫面。這個問題本身就極為困難，也有巨大的商業價值。問題在於，把渲染能力包裝成「理解世界」的能力，會誤導技術決策者和投資者，讓人誤以為這些模型已經具備了物理推演或具身互動的能力。

概念澄清的產業價值

釐清「世界模型」的定義邊界，不是一場學術上的咬文嚼字。它直接影響技術選用、投資判斷和大眾對AI能力的認知水位。

對於正在評估是否將某個「世界模型」用於機器人訓練的製造企業來說，搞清楚這個模型到底是渲染器、模擬器還是規劃器，是避免數百萬美元試錯的必要前提。一個只能產生視訊畫面的模型，無論畫面多麼逼真，都無法取代物體受力、運動軌跡和碰撞後果的精確計算。

對於投資機構來說，區分三類投影意味著可以更準確地識別專案所處的技術堆疊位置。一個自稱「世界模型」的新創公司，如果產品本質上是一個渲染器，它的競爭對手是視訊生成公司，而不是數位孿生平台或機器人控制模型。這直接決定了市場規模的估算方式和對標公司的選取。

對學術界來說，清晰的分類是建立可比較基準的前提。如果「世界模型」這個術語繼續被泛化，研究者就難以定義什麼算改進、什麼算突破，同儕審查將建立在歧義的基礎上。

World Labs在文章中也指出，概念澄清不是為了製造對立。未來的發展方向將是三類投影的融合。一個真正理解杯子物理屬性的模型，應該可以同時渲染它的視覺外觀、模擬它被推倒時的物理過程、並規劃機械手如何穩定地抓取它。但在科技發展到那一步之前，認清各自的邊界比暢想融合更有現實意義。

根據World Labs在文章中估計，以NVIDIA Omniverse為代表的模擬器及數位孿生技術，瞄準的是工廠、倉庫、供應鏈等領域超過兆美元的潛在市場。這個數字來自廠商本身的判斷，至於市場何時能真正達到這個規模，取決於模擬器能否突破高品質3D實體數據稀缺的瓶頸。

對於當前階段的AI產業來說，最重要的認知或許很簡單：能產生逼真視頻，不等於理解物理世界；能被叫做世界模型，不等於真的在模擬世界。穿透行銷語言，審視一個系統在POMDP循環中到底接受什麼輸入、輸出什麼結果、缺少哪個環節，是對技術能力邊界最誠實的判斷方式。