從程式碼到認知：機器人大腦演化的萬字指南

作者： Matt White , Linux Foundation 全球AI 首席技術官

編譯：Felix, PANews

王興興（宇樹科技CEO）與Matt White

幾週前在上海的時候，一位一起旅行的朋友（一位聰明、平常會看新聞和觀察事物，但不怎麼了解機器人技術），在晚餐時問了整個旅程中一直期待的問題。

「我們看到的到處跑的機器狗，在宇樹辦公室演示舞台上表演功夫的人形機器人，還有我們看到的疊衣服的機械臂。它們是怎麼做到的？它們是由大型語言模型（LLM）驅動的嗎？這到底是怎麼運作的？是不是有某種語言模型在控制它們的動作？」

這是一個很好的問題，坦白說：某種程度上是這樣，但真實的故事遠比這更有趣。你在社群媒體上看到的機器人並非穿著金屬外殼的ChatGPT。它們運行著一套技術堆疊（多層AI 協同工作）。這套技術棧在過去三年的變化比過去三十年還要大。語言模型是其中的一部分。視覺模型、動作模型、行為樹、經典控制迴路，以及一個名為「世界模型」的新興系統家族，也都是其中的重要組成部分。而「世界模型」或許是所有發展中最重要的一項。

這是一篇長文，會從頭說起，然後逐步講述每一次重大變革，最終到達現在所處的階段：機器人不僅能夠對世界做出反應，還能想像世界。

一：前LLM 時代：當機器人還只是軟體的時候

幾十年來，製造機器人意味著編寫大量程式碼，而且幾乎所有這些程式碼都不需要學習。

經典的工業機器人是由精心設計的模組堆疊而成的塔狀結構。例如上世紀90 年代焊接豐田底盤的橘色機械手臂，或是2000 年代初波士頓動力公司的BigDog。

感知：過濾攝影機畫面，進行邊緣偵測，利用幾何匹配辨識工件位置。
狀態估計：結合輪式編碼器、陀螺儀和加速度計（感測器融合）來確定機器人的位置和移動速度。
規劃：給定目標姿態，使用A* 或RRT 等演算法在已知地圖中計算出一條無碰撞的路徑。
控制：在最底層，PID控制器每秒數百次調整馬達扭矩以遵循該路徑。

這些層級通常由不同實驗室的不同人員編寫，並經過極其細緻的拼接而成。行為（例如「如果杯子是紅色的就拿起來，否則等待」）被編碼為狀態機或行為樹：即機器人逐步執行的流程圖。

這種方法的優勢顯而易見。它具有可預測性，符合安全標準。這就是為什麼你的汽車配備了有效的ABS 防鎖死煞車系統。

缺點同樣顯而易見。這樣的機器人只能在工程師預想的場景下才能發揮其智慧水準。一旦把它放到新的工廠、新的光照條件或新的杯子顏色中，它就會崩潰。它的泛化能力幾乎是零。

二：機器學習悄然介入

在2010 年代，深度學習開始著手解決感知層的問題。那些在ImageNet 影像分類任務中擊敗人類的捲積神經網路（CNN），可以被重新訓練，用於偵測物件上的抓握點、分割房間內的家具，或辨識人的姿態。突然之間，位於技術棧頂端的「感知」層不再需要人工設計，你可以直接訓練。

隨後，學習機制蔓延到了「控制」層。柏克萊大學、DeepMind 和OpenAI 的研究人員表明，強化學習（讓機器人智能體在模擬環境中嘗試數百萬次並強化有效行為）可以產生令人驚訝的嫻熟步態、手部物體操作（OpenAI 在2019 年單手解魔術方塊是一個里程碑），以及適應不同地形的運動策略。

另一個平行的研究方向是模仿學習，通常被稱為行為複製：記錄人類遙控機器人完成某項任務的幾百次嘗試，然後訓練神經網路來預測人類根據機器人所觀察到的情況會採取什麼行動。

這一切的關鍵在於：每個學習到的策略都過於狹隘。訓練一個網路去撿起一個紅色積木，它就不知道該如何處理一個黃色杯子。訓練它在草地上行走，但它會摔倒在瓷磚地上。泛化能力仍是亟待解決的難題。

值得一提的是，這段時期出現了一個基礎架構，它至今仍支撐著幾乎所有的東西：ROS，機器人作業系統（首次發佈於2007 年11 月）。 ROS 並不是Windows 或Linux 意義上的作業系統，而是一個中間件框架，一種通用的機器人管道系統。它允許「攝影機節點」、「導航節點」、「機械手臂控制器節點」以及其他數十個節點透過共享總線發布和訂閱訊息。

目前版本ROS2 運行於全球絕大多數科研和商用機器人的底層，從史丹佛大學的實驗室到中國的人形機器人新創公司，沒有例外。當人們談論機器人的「作業系統」時，幾乎總是指ROS2 加上其上運行的各種感知、規劃和控制軟體包。

 ROS2：它不是作業系統，而是讓獨立的機器人軟體相互通訊的通用管道

三：LLM 在機器人領域的應用

接著，ChatGPT 誕生了。

突然間有了這樣一個東西：LLM。它能夠閱讀簡單的英語指令，進行多步驟推理，編寫程式碼並呼叫函數。機器人專家幾乎立刻意識到，這正是他們多年來一直在努力解決的缺失環節。讓機器人在家庭或辦公室裡完成一些有用的任務，最困難的部分通常不是馬達控制，而是人機互動：人如何告訴機器人做什麼，以及機器人如何將這個目標分解成它已經知道如何執行的原子動作？

第一波將LLM 應用於機器人的工作，是將語言模型視為位於ROS 之上的一種自然語言編譯器。模式如下：

用戶用英語說：“把廚房檯面上的咖啡杯拿來，放到我的桌子上。”
LLM 根據機器人可用原子技能清單產生計畫：可以是函數呼叫序列、狀態機，也可以是用XML 編寫的行為樹。
ROS2 節點會逐步執行該計劃。如果某個步驟失敗，則會將失敗訊息報告給LLM，以便LLM 重新規劃。

Google2022 年的SayCan 專案是這一理念的一個非常簡潔的版本：LLM 提出技能，一個獨立的「可供性」模型評估每個技能當前成功的可能性，機器人選擇聯合得分最高的技能組合。華為研究實驗室主導的ROS-LLM、ROSGPT 和ROSA 等開放框架推廣了這種模式。

這的確是一項意義重大的飛躍。突然間，你可以告訴機器人“清理桌子，把可回收物放進藍色垃圾桶”，它就會嘗試執行一些合理的操作。但請注意，這裡仍然存在一些問題：語言模型仍處於規劃層。實際的動作指令仍由底層那些經過精心設計或專門訓練的控制器產生。語言模型只是一個智慧調度器，它不負責驅動。

四：視覺-語言-動作模型（VLA），當大腦開始驅動機器人

 Keenon XMAN-R1 機器人正在北京Galbot 公司的自動化藥局從貨架上取藥。只需10 萬美元

下一次飛躍更艱難，也更重要。研究人員提出了一個更具野心的問題：如果模型不僅能進行規劃，還能直接產生動作指令呢？如果將相機影像和語言指令直接輸入到一個神經網路中，然後就能得到下一毫秒的關節運動呢？

這就是視覺-語言-動作模型（VLA）。它現在是人形機器人和四足機器人領域的主流範式。

首個廣為人知的視覺語言機器人是GoogleDeepMind 於2023 年推出的RT-2。其巧妙之處在於：使用大型視覺語言模型（該模型已訓練用於圖像描述和問題解答），並繼續使用機器人演示資料對其進行訓練，但將機器人動作視為另一種需要預測的標記。同一個神經網路原本可以輸出“貓坐在墊子上”，現在卻可以輸出一系列標記，編碼“將右爪向前移動3厘米，合攏爪子，抬起5厘米”。推理和行動都在同一個模型中完成。

隨後，在2024 年中期，由史丹佛大學領導的團隊發布了OpenVLA ，這是一個擁有70 億參數的開源VLA 模型，它基於Open X-Embodiment 資料集進行訓練。該資料集匯集了來自21 個不同研究實驗室、涵蓋22 種不同機器人身體的超過一百萬個訓練片段。這是谷歌以外的人首次可以下載通用機器人模型並開始進行修改。它一夜之間改變了整個領域。

如今，領先的VLA 雖然數量不多，但發展迅速：

來自Physical Intelligence 的π0 和π0.5：出色的任務適應性。
NVIDIA Isaac GR00T N1.7：開放權重，商業授權，專為人形機器人設計，是大多數中國硬體公司目前正在使用其自身資料進行後訓練的模型。
Figure AI 的Helix 和更新的Helix-02：專有技術，但在架構上非常重要。
AgiBot 的Genie Envisioner：基於中國世界模型的平台。
SmolVLA、NORA、ACoT-VLA、CogACT：學術界湧現越來越多的VLA，它們探索著不同的設計方向。

VLA 的工作原理（不涉及數學公式）

可以將VLA 想像成將三路輸入訊號融合為一路輸出訊號。

第一個資料流是視覺資料。 RGB 相機（有時是深度感測器或雷射雷達），有時是指尖上的觸覺感測器，由視覺編碼器（通常是像DINOv2 或SigLIP 這樣的Transformer 模型）進行處理，該編碼器將每張影像壓縮成幾百個“視覺token”，概括機器人所看到的內容。

第二個資料流是語言。你的指令（「把螺絲起子遞給我」）就像在ChatGPT 中一樣被轉換為token。

這兩個資料流被連接起來，並輸入到一個Transformer「主幹」（通常是像Qwen3 或Llama 這樣的小型開源語言模型）。這個主幹負責推理，將它所看到的資訊與它被詢問的資訊結合。

第三個資料流：行動，從另一端流出。這裡是各種架構設計產生分歧的地方：

離散動作token：模型直接產生可解碼為關節角度或末端執行器位置的token，就像ChatGPT 產生單字一樣。這種方式簡單，但在高頻運作時會產生卡頓。
擴散或流匹配（flow-matching）動作頭：一個獨立的微型網路接收主幹的輸出，並去雜訊生成一條平滑的關節位置軌跡，就像影像擴散模型一樣，只不過生成的是運動。這就是π0 的做法，產生的動作更平滑、更自然。
動作分塊：不預測下一個單一指令，而是一次預測接下來半秒鐘的指令集，從而平滑掉抖動。

在VLA 模型中：兩個輸入流輸入，運動指令輸出，推理和行動融合在一個網路中。

這就是至關重要的架構轉變：推理和行動不再分開。教導神經網路辨識杯子，也教會了它如何抓取杯子。正是這種耦合使得VLA 能夠進行泛化，而它們的前身卻無法做到。

五：雙腦策略，LLM 和VLA 如何協同工作

這裡有一個行銷中很少明確解釋的細節。如今性能最佳的人形機器人並非運行單一的VLA 系統，而是運行兩個不同速度的模型，彼此通訊。這有時被稱為雙系統或系統1 / 系統2 架構，借鑒自Daniel Kahneman 的心理學框架，該框架認為人類擁有一個快速的直覺大腦和一個緩慢的深思熟慮的思考大腦。

Figure AI 的Helix 讓這種設計成為經典，現在它（及其變體）幾乎被到處效仿。尤其重要的是，NVIDIA 的GR00T N1.7 採用了這種設計，大多數中國人形機器人也採用了這種設計。其架構如下：

系統2（S2）：慢思考大腦。一個擁有70 億參數的視覺語言模型，運行頻率約為7–9 Hz（即每秒7 到9 次）。它的工作是觀察場景，解析指令，進行多步驟推理（如，「碗在麥片盒後面；我需要先移開盒子」），並發出高層次意圖——通常是一組緊湊的內部向量，而不是文字本身。
系統1（S1）：快反應大腦。一個小得多（約8000 萬參數）的視覺運動策略模型，運行頻率為200 Hz。它接收S2 的意圖向量加上最新的感測器數據，輸出連續的關節指令。它沒有任何實際意義上的“思考”，只是做出反應。

最近，Figure 公司的Helix-02 增加了一個系統0 （System 0 ）。它位於雙腦系統之下，是反射層，而非第三認知層。這是一個擁有1000 萬個參數、運行頻率為1 kHz 的網絡，負責處理底層的平衡和全身協調，用神經控制器取代了超過十萬行的手寫運動控制C++ 程式碼。你可以把S0 想像成一條後天習得的脊髓：它不進行推理或計劃，只是負責保持身體直立和協調，而思考則由上方的雙腦系統完成。

現代人形機器人的雙腦架構：系統2 思考緩慢，系統1 反應迅速－其下方還有一個系統0 反射層，用於保持平衡、觸覺接觸和全身協調

這種劃分源自於物理學的限制。如果每200 毫秒（這是一個大型VLA 的運行速度）才發出一次運動指令，機器人的動作會像在水下移動一樣遲緩。運動指令的更新速度必須快於它所控制關節的自然振盪，這意味著每秒鐘需要數百次更新。沒有任何一個70 億參數的Transformer 模型能在電池驅動的機器人上跑得這麼快。

因此，認知任務被分工：龐大而緩慢的模型負責思考；小巧而快速的模型負責行動。它們並非用英語交流，而是透過學習到的潛在向量進行溝通：緩慢的模型發出抽象的目標，而快速的模型則知道如何解讀它。

六：雲端、邊緣運算以及「大腦」的放置問題

所有這些計算究竟在哪裡進行？

如今，機器人團隊之間幾乎形成了一種強烈的、近乎意識形態的共識，即攸關安全的核心控制迴路必須在本地運作。原因有二：

延遲。 WiFi 或蜂窩網路的往返傳輸時間，樂觀估計也有30-80 毫秒。而動作指令需要每1-5 毫秒更新一次。這樣的網路循環根本無法正常運作。

可靠性。機器人在工廠、倉庫、廚房、醫院等場所運作。網路隨時可能斷線。如果一斷Wi-Fi 機器人就停擺，那它將成為一種安全隱患。

所以，現代的劃分大致如下：

板載（本地），運行在類似NVIDIA Jetson Thor 或AGX Thor 模組（約2,000 TFLOPS，128 GB 內存，40–130 W 功耗）的設備上：

S0/S1 的所有功能：平衡、動作、精細動作控制。
VLA 本身（系統2），為了適應硬體限制，越來越多地被量化到FP8 或FP4 格式。如今20 億到70 億參數範圍的模型可以在設備端運作。
感知、感測器融合，以及可以覆蓋任何其他操作的安全監控程序。

雲端或遠端伺服器（如果存在的話）：

對話式介面（「嘿，機器人，我晚餐該做什麼？」）：這些介面可以容忍延遲。
叢集學習：數千台機器人將遠端操作資料傳送回伺服器，以便匯總到下一版本模型。
需要進行大規模的長期規劃，可能會採用前沿規模模型。
操作員儀錶板和監控。

此外，還有一個日益壯大的中間層：位於工廠或倉庫中的本地邊緣伺服器，它們透過本地網路與機器人叢集通信，延遲僅為個位數毫秒級。更大型的LLM 可能就部署在這個層級，負責執行單一機器人無需自行管理的高階排程任務。

中國的人形機器人浪潮正是基於這個假設而建構的：宇樹（Unitree）、智元（AgiBot）、小鵬IRON、傅利葉（Fourier）、逐際動力（EngineAI）。它們的機器人配備了板載運算能力（通常是Jetson，有時也使用華為Ascend 等國產晶片），而雲端則用於叢集學習和對話介面，而非控制迴路。

機器人大腦實際運行的位置：安全關鍵迴路在本地運行，雲端用於處理可以等待的事情

七：為什麼開源模型悄悄成為焦點

如果你只看演示，你可能會認為這個領域是由少數幾家資金雄厚的美國公司主導的。但事實遠比這複雜。實體AI 的發展速度在很大程度上是由任何人都可以下載和微調的開源權重模型決定的。

以下列舉的模型雖不多，但意義重大：

OpenVLA（史丹佛大學）：第一個開源的7B 通用機器人模型。
NVIDIA Isaac GR00T（N1、N1.5、N1.7）：開源權重即將推出，商業授權也即將上線，該模型基於數萬小時的人類自我中心視訊進行訓練。 GR00T N1.7 於2026 年3 月發布，屆時任何擁有人形機器人的用戶都可以免費使用其雙系統架構。
Physical Intelligence 的π0：發布用於研究的權重。
NVIDIA Cosmos：開放世界基礎模式。
AgiBot World：來自上海新創公司的龐大開源資料集，包含遠端操控人形機器人的示範。
Hugging Face 的LeRobot：一個開放的庫，已成為上述所有平台的匯聚之地。
Mimic robotics 的mimic-video：一種開源的視訊-動作模型，其樣本效率比傳統VLA 高出10 倍。

之所以重要，有兩個原因。首先，機器人新創公司不必再花費數千萬美元來預訓練一個基礎模型：它們可以拿著GR00T 或π0，然後用自己機器人的數據進行後訓練。宇樹、逐際動力、Booster、Galbot 以及幾十家規模較小的中國公司正是這樣做的。這就是為什麼一家只有幾百名員工的公司，也能出產出會走路、會說話、能疊衣服的人形機器人的原因：他們是站在開源技術棧的肩膀上。

其次，開源模型是解決安全性問題的唯一現實途徑。如果一個完全閉源的模型在某個工廠車間的機器人體內運行，而外界對它的推理邏輯毫無洞察能力，這無疑是一場監管噩夢。開放式模型讓審計人員、研究人員和操作員能夠真正檢查機器人到底被訓練了些什麼。

八：還有哪些問題尚未解決

如果你看過足夠多的機器人演示視頻，你也一定看過很多機器人故障視頻。目前這一代的LLM+VLA 機器人確實令人印象深刻，但也確實有明顯的限制。以下是它存在的問題：

任務中途恢復。 VLA 處理意外變化的能力比以前的任何技術都強。但當事情真正出錯時（例如抓取失誤、物體滾動、有人闖入工作區），重新回到正軌依然是弱項。機器人會盲目重複失敗動作。
樣本效率。從零開始訓練一個VLA 需要上萬小時的遠端操作資料。而人類幾分鐘就能學會操作一個新工具。這個效率差距是巨大的。
跨實體泛化。在史丹佛實驗室裡用Franka 機械手臂訓練出來的模型，並不能完美地遷移到深圳倉庫裡的宇樹人形機器人。兩者的物理形態不同。
長期任務。任何需要超過30-60 秒的連貫行為，且包含多個子目標的任務，都容易偏離目標。「為我做早餐」這樣的任務始終遙不可及。
物理常識。 VLA 接受的是模仿訓練，而非理解訓練。它並不真正理解「碰倒一杯水」時水會倒出來的原理。它只是見過一些例子，並根據模式匹配來預測接下來會發生什麼。
空間推理能力。儘管它們是多模態的，但在「繞過障礙物而不是穿過它」或「把這些東西疊起來不倒」之類的任務上卻出奇地弱。

最後這一系列弱點，促使該領域開始押注於一個截然不同的模型。

九：世界模型

不妨設想一下：如果不訓練機器人預測動作，而是訓練它預測動作的後果，結果會如何？

世界模型（World Model）是一種神經網絡，它根據當前世界狀態（通常是一段影片或一連串幀影像）和預設動作，預測世界接下來的樣子。簡單來說，你可以把它想像成一個有方向盤的學習型視訊預測器。你給它看最後一秒的攝影機畫面，並告訴它“機器人將手臂向前移動10 厘米”，它就能生成一段逼真的視頻，預測下一秒的畫面。

這為什麼重要？

因為一旦有了世界模型，機器人就能在行動前思考。它可以預先構思三到四種不同的候選行動，預測每種行動的結果，進行評分，並選擇最佳方案。所有這些都在電機運動之前完成。這正是西洋棋引擎的運作方式：它不記憶棋步，而是模擬未來。以前在物理機器人領域從未擁有過這種能力，因為從未擁有過足夠精確的模型，來模擬紛繁複雜的真實世界。

世界模型允許機器人模擬多種可能的未來場景，對其進行評分，並在任何馬達啟動之前選擇最佳方案

2026 年的世界模型究竟是什麼樣子？

目前最先進的世界模型種類繁多，但發展迅速。以下是一些模型：

NVIDIA Cosmos：一系列的開放世界基礎模型，包括Cosmos Predict 2.5（生成模型）、Cosmos Transfer 2.5（可控模擬模型）、Cosmos Reason 2（用於機器人的視覺語言推理器）以及最新的Cosmos Policy。 Cosmos Policy 更進一步，透過世界模型進行後訓練，直接輸出動作以進行控制。 Cosmos 使用數萬GPU 小時的視訊資料進行訓練（Cosmos Predict 2.5 是該系列中的世界模型）。
DeepMind Genie 3：一款互動式世界模型，它能夠根據文字提示產生完全可導航的環境，幀速率為每秒24 幀，並能持續穩定運行數分鐘。最初是為遊戲環境而設計。
Meta V-JEPA 2：預訓練時使用了超過一百萬小時的網絡視頻，然後僅用62 小時的機器人視頻進行動作條件化訓練。在不同實驗室的真實機器人手臂上，無需任何特定任務訓練，即可達到80% 的零樣本拾取放置成功率。「JEPA」方法在架構上與其他方法截然不同。
DeepMind Dreamer 4：僅使用離線數據，無需任何環境交互，就學會了在Minecraft 中收集鑽石（一項2 萬步的任務）。這證明了在虛擬世界中進行真正的強化學習是可行的。
AgiBot 的Genie Envisioner：來自中國的統一世界模型平台，使用超過3000 小時的真實世界人形機器人操作影片進行訓練。它既可以產生預測的展開軌跡，也可以產生可執行的動作軌跡。 AgiBot 使用NVIDIA Cosmos Predict 2 作為骨幹網絡，並使用自有資料進行後訓練。這正是之前所描述的「開源技術堆疊+自有資料」模式。
豐田研究院基於Cosmos 的世界模型：用於遠端操作資料增強和導航。

 2025-2026 年最重要的六個世界模型，每個模型都對機器應該如何學習物理學提出了不同的設想。

十：替代架構，因為該領域尚未定論

建構世界模型並沒有統一的標準。架構之爭是目前AI 領域最有趣的爭論之一，它直接影響機器人未來能做些什麼。以下三個陣營值得關注：

像素級視訊擴散（Cosmos/Sora 學派）：使用擴散模型預測未來幀的實際像素。優點是可作為合成資料產生器，可以渲染從未發生過的全新機器人演示。缺點是成本高昂，有時會違反物理規律，而且預測永遠不會看到的像素是一種浪費。

聯合嵌入預測架構，簡稱JEPA（LeCun 學派）：不預測像素，而是預測下一幀的抽象表徵。拋棄紋理細節，只保留場景中事物的語意本質。優點是高效，專注於對行動至關重要的因素。缺點是使用較為困難。 V-JEPA、V-JEPA 2 和新型JEPA-VLA 混合模型正在探索這一領域。

潛在動作世界模型（Genie/Dreamer 流派）：學習如何將整段影片壓縮成一種潛在的“動作語言”，這種語言能夠捕捉行為結構，然後訓練世界模型，使其能夠根據下一個潛在動作預測下一個潛在狀態。優點是允許你使用無動作的網路影片進行訓練，然後添加少量真實機器人資料。缺點是潛在動作無法被人類理解，安全分析變得複雜。

像素擴散、JEPA 和潛在動作：目標相同，建構世界模型的方式卻截然不同

十一：基於世界模型的機器人實際應用

如果快轉幾年，前沿人形機器人的架構可能看起來像這樣：

VLA 上搭載著一個世界模型。當機器人遇到新的情況時，它會執行類似以下的操作：

VLA提出了一些後續行動的候選方案（它仍是策略）。
世界模型會取得每個候選動作，並模擬1-3 秒的假想影片。
價值判斷者會根據設想的結果進行評分：杯子被拿起了嗎？有東西掉下來了嗎？人被撞到了嗎？
機器人會選擇得分最高的行動，並且只執行其第一部分。
真實感測器資料回流；循環重複。

這就是模型預測控制，這項技術多年來一直用於穩定火箭和四旋翼飛行器，但它用學習到的世界模型取代了人工推導的物理方程式。它的可擴展性在於，世界模型是基於數百萬小時的影片進行預訓練的，而不是因為有人為廚房環境編寫了納維-斯托克斯方程式（Navier-Stokes equations）。

其益處層層遞進：

恢復情況有所改善。如果抓取動作發生失誤，世界模型可以設想多種修正路徑，並選擇最有希望的路徑。
泛化能力得到提升。基於網路視訊訓練的世界模型所經歷的「物理現象」比任何機器人遠端操作資料集都要多幾個數量級。
長遠規劃變得可控制。在想像中規劃，而不是在現實中規劃。
模擬與現實之間的差距縮小了。以前需要用自己搭建的模擬器（例如Isaac Sim、Newton 物理引擎）進行訓練，然後寄希望於訓練結果能夠遷移到實際應用中，而現在則可以使用經過訓練、能夠與真實視頻相匹配的模擬器進行訓練。因此差距更小。
合成數據呈爆炸性成長。一個世界模型幾乎可以免費產生數百萬條不同的機器人軌跡，涵蓋不同的光線、材質和物件配置。這解決了該領域最大的瓶頸之一。

此外，它還具有一項重要的安全優勢。能夠模擬動作後果的機器人可以拒絕執行危險操作：並非因為預設規則的限制，而是因為它預想到未來可能會有人受傷。

兩種移動方式：VLA 根據所見做出反應；世界模型機器人則在移動前思考

十二：還應該知道的事

數據問題才是真正的核心問題：如果無法餵食模型數據，世界上所有的架構創新都無濟於事。目前，遠端操作（人類穿戴VR 設備遠端木偶式操縱機器人）是主要的技術瓶頸。一家機器人公司的競爭護城河越來越取決於其資料採集流水線，而不是模型本身。智元機器人已經建立了充滿操作員的倉庫。英偉達GR00T N1.7 的靈巧度擴展定律表明，更多的人類第一人稱視角視訊可以直接、可預測地提升機器人的靈巧度。這也是中國具有結構性優勢的部分原因：更低的資料收集勞動成本、更寬容的部署環境，以及國家積極協調供應鏈。

仿真是一個平行宇宙。 NVIDIA 的Isaac Sim、全新的開源Newton 實體引擎（1.0 版本將於2026 年4 月正式發布）以及Omniverse 平台，讓企業能夠在數百萬個平行模擬環境中訓練機器人，而無需部署到現實世界。大多數看似「機器人智慧」的功能，實際上是在模擬環境中培養，然後移植到硬體上的。

經濟效益開始顯現。宇樹在2025 年交付了約5,500 台人形機器人，並計畫在2026 年達到1 萬至2 萬台。平均價格在兩年內從8.5 萬美元降至2.5 萬美元。宇樹的R1 售價為5900 美元。 Noetix Bumi 的上市價格為1400 美元。人形機器人硬體的價格正在接近消費電子產品的價格水平，而其內部的AI 技術仍然落後於演示產品。這種差距終將縮小，屆時，市場規模的提升將對整個產業產生顯著影響。

故障模式看起來很奇怪。當基於LLM 的機器人發生故障時，它們的故障方式往往是傳統機器人無法做到的。例如，自信地做錯事、「幻覺般地」感知到某些功能、陷入與自身規劃器的對話循環。傳統機器人界對此抱持相當程度的懷疑，這種懷疑不無道理，他們堅持認為學習系統必須被安全監控和行為約束。目前最可靠的部署機器人是混合型的：VLA 大腦被放置在手工設計的安全籠內。

「ChatGPT時刻」的敘事是一個有用但帶有誤導性的比喻：黃仁勳一直在告訴所有人，機器人的ChatGPT 時刻已經到來。他之所以這麼說，是因為英偉達賣的是鏟子和鎬頭。更誠實的版本是：目前大約處於物理AI 的GPT-2 時代。它很強大，能讓你感到驚艷；但還不夠強大，無法在無人看管的情況下進行部署。它正在快速迭代，但還沒有迎來病毒式普及的爆發點，而是一個緩慢而堅定的上升軌跡。

結語

宇樹四足機器人的演進歷程（由右至左）

在宇樹辦公室看到的演示中，五個G1 人形機器人表演武術，其動作經過精心編排，機載VLA 式控制器進行微調，遠端操作員則確保一切順利進行。從根本上來說，它並非完全自主。但整個流程：感知、規劃、運動控制，都在被神經網路取代。兩年後，同樣的機器人無需編排就能完成相同的動作，因為它已經預先構思好了整個動作，並選擇了最佳版本。

本文所描述的整個發展歷程：從手工編寫的控制器，到機器學習感知，再到LLM 規劃器，再到VLA，再到雙系統架構，最終到世界模型，實際上是機器人智慧所在位置的緩慢轉變。它始於工程師的頭腦，然後演變成手工編寫的程式碼，接著進入感知層，進入規劃器，進入策略層。而現在，它最終正朝著學習世界本身的模式發展。

每一次轉變都讓機器人變得更通用、更具適應性、更有用。如果世界模型轉變奏效，它將真正賦予機器人強大的能力：強大到足以讓問題不再是“機器人能做什麼？” ，而是“我們應該讓它們做什麼？”

相關閱讀：盤點30多家人形機器人公司：誰能在2026年勝出？