李飛飛團隊釐清「世界模型」概念,Sora只能算是渲染器

2026年6月,World Labs與李飛飛聯合發布概念分類文章,直言「世界模型」是AI領域最被濫用的術語之一。一個影片產生器、一個自動駕駛預測網路、一個機器人控制模型,它們有什麼共同點?幾乎沒有,但都被叫做「世界模型」。這篇文章沒有發布新模型,而是回到POMDP理論源頭,把所有系統歸為渲染器、模擬器、規劃器三種功能投影。穿透行銷話術,理解不同AI系統真實能力邊界,這把鑰匙終於有人遞出來了。

2026年6月3日,World Labs團隊與史丹佛大學教授李飛飛聯合發布了一篇概念分析文章,標題直白到幾乎沒有修飾:《世界模型的功能分類法》。文章開篇第一句話就戳破了一個行業默契:“世界模型是當今人工智慧領域最重要、也最被濫用的術語之一。”

這句話的背景,但凡關注過AI產業的人都不陌生。

2024年2月,OpenAI發布影片生成模型Sora,技術報告標題赫然寫著「影片生成模型作為世界模擬器」。 NVIDIA機器人總監Jim Fan當時在LinkedIn上留下一句後來被反覆引用的評論:Sora本質上是一個「只允許無操作作為唯一動作的世界模型」。另一頭,據公開報道,特斯拉AI團隊在公開場合多次將全自動駕駛系統內部的預測組件稱為「世界模型」或「世界模擬器」。遊戲引擎、3D生成工具、具身智慧模型,各類產品和技術都被塞進同一個籃子裡,貼上了同一張標籤。

一個視訊產生器,一個自動駕駛預測網絡,一個機器人控制模型,一個實體引擎,它們有什麼共同點?幾乎沒有。但它們都被叫做「世界模型」。

這場持續兩年多的概念混亂,終於有人試圖系統性地梳理清楚。李飛飛團隊這次沒有發布新模型,沒有公佈新基準,沒有展示任何產品功能。他們做了一件更基礎的事:回到部分可觀馬可夫決策過程這一理論源頭,把所有市面上被稱作「世界模型」的系統,歸約為同一個認知循環的三種不同功能投影。

三種投影分別是:渲染器、模擬器、規劃器。在World Labs的分類架構下,Sora及其同類影片生成模型,屬於渲染器。

一個術語為什麼能裝下如此多彼此矛盾的含義

要理解這場混亂的根源,需要先追問一個更基礎的問題:當一家公司在說「我們在做世界模型」時,它到底在說什麼?

對OpenAI來說,Sora的目標是「理解並在影片中呈現物理世界」。從技術報告看,Sora透過學習海量視訊資料中的統計規律,能夠產生符合視覺常識的畫面,杯子掉在地上會碎,紙飛機脫手會飛,人在走路時雙腿交替擺動。這些畫面看起來「懂物理」。

對特斯拉來說,「世界模型」是FSD系統中預測道路參與者在未來數秒內運動軌跡的神經網路。它需要輸出精確的3D位置、速度、朝向,供路徑規劃模組計算安全的駕駛決策。這個模型不需要輸出像素,它輸出的是向量和機率分佈。

對機器人公司來說,「世界模型」是讓機械手臂能夠預判「如果我把這個杯子向左推5厘米,它會倒嗎」的內部模擬機制。它需要理解物體屬性、接觸力學和穩定性,輸出的是動作可行性評估。

三類公司的目標完全不同。影片生成公司關心像素保真度,自動駕駛公司關心物理狀態預測的精確度,機器人公司關心動作後果的可推演性。它們都在做“世界模型”,但做的根本不是同一件事。

World Labs在文章中直指問題核心:這些系統之所以都被冠以同一個名字,是因為它們確實都承載了「理解世界」的某一個面向。但它們各自只完成了完整認知循環中的一個環節,卻被行銷語言、媒體報導和資本敘事包裝成了完整的世界模型。

概念混亂的另一個推手是術語本身的張力。 「世界模型」這個詞自帶宏大敘事屬性,聽起來比「影片生成模型」或「影片預測模型」更有想像空間,更能支撐高估值和融資故事。當技術能力無法匹配大眾期待時,概念淪為宣傳工具就成了必然。

回到1960年代,完整的「世界模型」應該是什麼

World Labs的分類架構建立在一個看似古老的理論基礎上:部分可觀馬可夫決策過程。

這個框架描述的是一個智能體與環境互動的完整循環。智能體處於某種環境狀態中,它執行一個動作,動作改變環境狀態,智能體透過感測器獲得部分觀測,觀測觸發內部狀態更新,更新後的認知驅動下一個動作。循環往復。

在這個框架下,「世界模型」的完整功能應該包含三個環節:從狀態生成觀測(人眼看到或感測器收集到的像素、點雲等),從動作和當前狀態推演下一狀態(預測物理變化),從觀測和目標生成動作(決策規劃)。

語言模型學習的是文本序列的統計規律,世界模型學習的則是空間和時間的統計特性。光照如何在不同材質表面反射,物體在重力作用下如何移動,剛體碰撞後能量如何傳遞,這些才是世界模型要捕捉的規律。

World Labs團隊在文章中指出,目前市面上所有被稱為「世界模型」的系統,其實只是上述完整循環中某一個功能環節的投影。有的系統只做「從狀態到觀測」的渲染,有的只做「從動作到下一狀態」的狀態推演,有的只做「從觀測到動作」的規劃。它們各自截取了一個循環的弧線,卻被各自貼上了代表完整圓形的標籤。

這個分析架構的價值在於,它提供了一個超越行銷話術的比較座標系。不管一家公司怎麼包裝自己的產品,只要把它放回POMDP循環裡,看它輸入什麼、輸出什麼、缺什麼環節,它的能力邊界就暴露無遺。

渲染器、模擬器、規劃器,三種投影的能力邊界

World Labs的分類法中,第一類被定義為「渲染器」。它的核心目標是產生面向人類視覺感知的高保真像素輸出。輸入是某種環境狀態的表徵(可以是文字描述、3D場景參數或隱式編碼),輸出是一幀一幀的連續畫面。

渲染器優化的方向是視覺逼真而非物理精確度。 World Labs文章明確指出,渲染器生成的建築可能“搖搖欲墜”,因為它並不真正解開結構力學方程式;它產生的液體潑濺可能看起來很真實,但液體體積、流速和衝擊力可能與真實物理量完全不對應。所以這類模型不能用於建築設計,不能用於機器人訓練,不能用於需要物理上精確模擬的任務。

Google的Genie 3、各類文字轉影片模型、以及幾乎所有AI影片產生工具,都屬於這一類。 Sora當然也在其中。

第二類是「模擬器」。它的核心目標不是產生給人看的畫面,而是產生可供後續計算使用的精確狀態。輸入是當前環境狀態和外在作用力(或動作),輸出是物理和幾何上忠實於真實世界規律的下一狀態。模擬器輸出的狀態可以用來做應力分析、能耗計算、碰撞偵測,也可以作為渲染器的輸入來產生視覺化畫面,但它的核心價值在於狀態本身的可計算性。

NVIDIA Omniverse是這類系統的典型代表。它不是AI原生模型,而是一個融合了傳統實體引擎和AI加速運算的數位孿生平台。 World Labs在文章中評價,模擬器是連接渲染和規劃的橋樑,但高品質3D實體標註資料的稀缺是主要瓶頸。根據World Labs在文章中估計,用於訓練這類模型的數據,比網路上可取得的影片數據少幾個數量級。

第三類是「規劃器」。它的輸入是觀測資料(相機畫面、光達點雲、觸覺感測器讀數等)和目標指令,輸出是下一步該執行什麼動作。 VLA(視覺-語言-動作)模型和World Action Models都屬於這一類。

三大分類之間的差異,不是技術路線的細微分歧,而是根本性的功能分化。渲染器輸出像素給人看,模擬器輸出狀態給機器算,規劃器輸出動作給執行器跑。一個系統可以同時具備多種能力,但當大多數被叫做「世界模型」的系統本質上只做渲染時,把「渲染」等同於「理解世界」就是一種嚴重的認知錯配。

一場持續兩年的爭論,Sora到底是不是世界模型

2024年2月,OpenAI發布Sora,技術報告標題直接寫上了「影片生成模型作為世界模擬器」。這一用詞當即引發學術界和開發者社群的激烈爭論。

支持者認為,Sora生成的影片展示了3D空間一致性、物件持久性和對物理互動的某種直觀理解。一塊被咬過的漢堡會留下齒痕,一隻狗在雪地裡跑會濺起雪花,這些細節似乎表明模型學到了一些物理規律。

反對者的核心論點來自於強化學習領域對世界模型的經典定義:一個世界模型必須能夠基於動作進行狀態轉移預測。也就是說,給定當前狀態和一個動作輸入,模型應該輸出動作之後的下一個狀態。 Sora做不到這一點。使用者無法告訴Sora“從左邊推開那個杯子”,然後觀測杯子是否會倒、往哪個方向倒、碎片飛到哪裡去。

Jim Fan的評論精準抓住了這個矛盾:「Sora本質上是一個世界模型,只是它只允許無操作(no-op)作為唯一動作。」這句話的意思是,Sora確實在預測環境隨時間的變化,但這個變化過程不受任何外部幹預,只能沿著視頻數據中固有的因果鏈展開。它不是在做互動推演,而是在做被動觀測序列的續寫。

Reddit的r/MachineLearning版塊上,不少強化學習研究者表達了更尖銳的批評:不能基於動作進行狀態轉移預測的系統,不能叫世界模型,只能叫視頻預測模型。

World Labs的分類架構為這場爭論提供了一個定論式的答案。在POMDP循環中,動作是驅動狀態轉移的關鍵輸入,缺少此輸入的系統只是完整認知循環中「觀測生成」環節的投影。 Sora屬於渲染器,不是完整的世界模型,更不是世界模擬器。

但這不意味著Sora沒有價值。渲染器解決的是一個不同的問題:如何產生符合人類視覺預期的畫面。這個問題本身就極為困難,也有巨大的商業價值。問題在於,把渲染能力包裝成「理解世界」的能力,會誤導技術決策者和投資者,讓人誤以為這些模型已經具備了物理推演或具身互動的能力。

概念澄清的產業價值

釐清「世界模型」的定義邊界,不是一場學術上的咬文嚼字。它直接影響技術選用、投資判斷和大眾對AI能力的認知水位。

對於正在評估是否將某個「世界模型」用於機器人訓練的製造企業來說,搞清楚這個模型到底是渲染器、模擬器還是規劃器,是避免數百萬美元試錯的必要前提。一個只能產生視訊畫面的模型,無論畫面多麼逼真,都無法取代物體受力、運動軌跡和碰撞後果的精確計算。

對於投資機構來說,區分三類投影意味著可以更準確地識別專案所處的技術堆疊位置。一個自稱「世界模型」的新創公司,如果產品本質上是一個渲染器,它的競爭對手是視訊生成公司,而不是數位孿生平台或機器人控制模型。這直接決定了市場規模的估算方式和對標公司的選取。

對學術界來說,清晰的分類是建立可比較基準的前提。如果「世界模型」這個術語繼續被泛化,研究者就難以定義什麼算改進、什麼算突破,同儕審查將建立在歧義的基礎上。

World Labs在文章中也指出,概念澄清不是為了製造對立。未來的發展方向將是三類投影的融合。一個真正理解杯子物理屬性的模型,應該可以同時渲染它的視覺外觀、模擬它被推倒時的物理過程、並規劃機械手如何穩定地抓取它。但在科技發展到那一步之前,認清各自的邊界比暢想融合更有現實意義。

根據World Labs在文章中估計,以NVIDIA Omniverse為代表的模擬器及數位孿生技術,瞄準的是工廠、倉庫、供應鏈等領域超過兆美元的潛在市場。這個數字來自廠商本身的判斷,至於市場何時能真正達到這個規模,取決於模擬器能否突破高品質3D實體數據稀缺的瓶頸。

對於當前階段的AI產業來說,最重要的認知或許很簡單:能產生逼真視頻,不等於理解物理世界;能被叫做世界模型,不等於真的在模擬世界。穿透行銷語言,審視一個系統在POMDP循環中到底接受什麼輸入、輸出什麼結果、缺少哪個環節,是對技術能力邊界最誠實的判斷方式。

分享至:

作者:OmniTools

本文為PANews入駐專欄作者的觀點,不代表PANews立場,不承擔法律責任。

文章及觀點也不構成投資意見

圖片來源:OmniTools如有侵權,請聯絡作者刪除。

關注PANews官方賬號,一起穿越牛熊
PANews APP
以太幣現貨 ETF 昨日總淨流出5,293.60萬美元,持續17日淨流出
PANews 快訊