作者:Paul Veradittakit,Pantera Capital 合夥人
編譯:xiaozou,金財經
摘要:
- VLA 創新與規模效應正推動著經濟實惠、高效且通用型人形機器人的誕生。
- 隨著倉儲機器人向消費級機器人市場擴張,機器人安全、融資與評估機制值得深入探討。
- 加密技術將透過為機器人安全提供經濟擔保,並優化其對接基礎設施、延遲及資料擷取流程,進而推動機器人產業發展。
ChatGPT 徹底改寫了人類對人工智慧的認知預期。當大語言模型開始與外在軟體世界互動時,許多人曾認為AI 智能體就是終極形態。但若回顧《星際大戰》、《銀翼殺手》或《機械戰警》等經典科幻電影就會發現,人類真正夢想的是人工智慧能以機器人形態實現物理世界的互動。
在PanteraCapital 看來,機器人領域的「ChatGPT 時刻」即將到來。我們將首先分析過去數年間人工智慧的突破如何改變產業格局,繼而探討電池技術、延遲優化與資料擷取改進將如何塑造未來圖景,以及加密技術在其中扮演的角色。最後我們將闡釋為何認為機器人安全、融資、評估及教育是需要重點關注的垂直領域。
1、變革要素
(1)人工智慧突破
多模態大語言模型領域的進展正賦予機器人執行複雜任務所需的「大腦」。機器人主要透過視覺與聽覺兩種感官感知環境。
傳統電腦視覺模型(如卷積神經網路)雖擅長物件偵測或分類任務,卻難以將視覺訊息轉化為有目的的行動指令。大語言模型雖在文本理解與生成方面表現卓越,卻受限於對物理世界的感知能力。

透過視覺- 語言- 行動模型(VLA),機器人得以在統一的計算框架中整合視覺感知、語言理解與實體行動。 2025 年2 月,Figure AI 發布了通用人形機器人控制模型Helix,該模型憑藉零樣本泛化能力和系統1/ 系統2 雙架構為行業樹立新標竿。零樣本泛化特性使機器人無需針對每項任務進行重複訓練,即可即時適應新場景、新物體與新指令。系統1/ 系統2 架構將高階推理與輕量級推理分離,實現了兼具類人思維與即時精準度的商業化人形機器人。
(2)經濟型機器人成為現實
改變世界的科技都具備一個共同特質──可普及性。智慧型手機、個人電腦、3D 列印技術都透過中產階級可負擔的價格來普及。當Unitree G1 等機器人價格低於本田雅閣轎車或美國3.4 萬美元最低年收入時,想像體力勞動與日常事務主要由機器人完成的世界便不足為奇。

(3)從倉儲走向消費級市場
機器人技術正從倉儲解決方案向消費領域擴展。這個世界是為人類設計的──人類能完成所有專業機器人的工作,而專業機器人卻無法勝任所有人類的工作。機器人公司不再侷限於製造工廠專用機器人,轉而開發更具通用性的人形機器人。因此機器人技術的前沿不僅存在於倉庫,更將滲透日常生活。
成本是可擴展性的主要瓶頸之一。我們最關注的指標是每小時綜合成本,其計算方式為:訓練與充電的時間機會成本、任務執行成本及機器人購買成本總和,除以機器人總運作時間。此成本需低於相關行業平均薪資水準才具競爭力。

要全面滲透倉儲領域,機器人每小時綜合成本必須低於31.39 美元。而在最大的消費級市場—私立教育與健康服務領域,此成本需控制在35.18 美元以下。目前機器人正朝著更廉價、更有效率、更通用的方向發展。
2.機器人技術的下一步突破
(1)電池優化
電池技術始終是用戶友善機器人的瓶頸。早期如BMWi3 等電動車因電池技術限制導致續航力短、成本高、實用性低而難以普及,機器人正面臨相同困境。波士頓動力的Spot 機器人單次續航僅90 分鐘,Unitree G1 電池續約約2 小時。用戶顯然不願意每兩小時手動充電,因此自主充電與對接基礎設施成為重點發展方向。目前機器人充電主要有兩種模式:電池更換或直接充電。
電池更換模式透過快速替換耗盡電池組實現持續作業,最大限度減少停機時間,適用於野外或工廠場景。此流程可人工操作也可自動化完成。
感應充電採用無線供電方式,雖然完整充電耗時較長,但能輕鬆實現全自動化流程。
(2)延遲優化
低延遲操作可分為環境感知與遠端操控兩類。感知指機器人對環境的空間認知能力,遠端操控則特別指人類操作員的即時控制。
根據Cintrini 研究顯示,機器人感知系統始於廉價感測器,但技術護城河在於融合軟體、低功耗運算和毫秒級精控迴路。當機器人完成空間定位後,輕量級神經網路將標記障礙物、托盤或人類等要素。場景標籤輸入規劃系統後,即刻產生發送至足部、輪組或機械手臂的馬達指令。 50 毫秒以下的感知延遲等同於人類反射速度——任何超出此閾值的延遲都會導致機器人動作笨拙。因此90% 的決策需透過單一視覺- 語言- 行動網絡在本地完成。
全自主機器人需確保高效能VLA 模型延遲低於50 毫秒;遠端操控機器人則要求操作端與機器人間的訊號延遲不超過50 毫秒。此處VLA 模型的重要性特別凸顯-若視覺與文字輸入分別由不同模型處理後再輸入大型語言模型,整體延遲將遠超過50 毫秒閾值。
(3)數據收集優化
資料擷取主要有三種途徑:現實世界視訊資料、合成資料與遠端操控資料。現實資料與合成資料的核心瓶頸在於彌合機器人物理行為與影片/ 模擬模型間的差異。現實視訊資料缺失力回饋、關節運動誤差和材料形變等物理細節;模擬資料則缺乏感測器故障、摩擦係數等不可預測變數。
最具潛力的資料採集方式是遠端操控-由人類操作員遠端控制機器人執行任務。但人力成本是遠端操控資料採集的主要限制因素。
客製化硬體開發也正為高品質數據採集提供新方案。 Mecka 公司透過主流方法與客製化硬體結合,採集多維度人類運動數據,經處理後轉化為適用於機器人神經網路訓練的數據集,配合快速迭代週期為AI 機器人訓練提供大量高品質數據。這些技術管道共同縮短了從原始數據到可部署機器人的轉換路徑。
3.重點探索領域
(1)加密技術與機器人融合
加密技術激勵去信任方提升機器人網路效率。基於前文所述關鍵領域,我們認為加密技術能在對接基礎設施、延遲優化和資料收集三方面提升效率。
去中心化實體基礎設施網路(DePIN)有望革新充電基礎設施。當人形機器人像汽車般全球運作時,充電站需如加油站般觸手可及。中心化網路需要巨額前期投資,而DePIN 將成本分攤至節點營運商,使充電設施快速擴張至更多區域。
DePIN 還可利用分散式基礎架構優化遠端操控延遲。透過聚合地理分散的邊緣節點運算資源,遠端操控指令可由本地或最近可用節點處理,最大限度地縮短資料傳輸距離,顯著降低通訊延遲。但目前DePIN 專案主要聚焦去中心化儲存、內容分發和頻寬共享,雖有專案展示邊緣運算在串流媒體或物聯網中的應用優勢,尚未延伸至機器人或遠端操控領域。
遠端操控是最具前景的資料擷取方式,但中心化實體僱用專業人員擷取資料的成本極高。 DePIN 透過加密代幣激勵第三方提供遠端操控資料解決此問題。 Reborn 計畫建構全球遠端操作員網絡,將其貢獻轉化為通證化數位資產,形成無需許可的去中心化系統——參與者既可獲得收益,又能參與治理並協助AGI 機器人訓練。
(2)安全始終是核心關切
機器人技術的終極目標是實現完全自主化,但正如《魔鬼終結者》系列電影所警示的,人類最不願意看到自主性將機器人變成攻擊性武器。大語言模式的安全問題引發關注,而當這些模式具備實體行動能力時,機器人安全便成為社會接納的關鍵前提。
經濟安全是機器人生態繁榮的支柱之一。該領域的OpenMind 公司正在建造FABRIC——一個去中心化的機器協調層,通過密碼學證明實現設備身份認證、物理存在驗證及資源獲取。有別於簡單的任務市場管理,FABRIC 使機器人能夠不依賴中心化中介,自主證明身分資訊、地理位置與行為記錄。
行為約束與身分認證透過鏈上機制執行,確保任何人均可審計合規性。符合安全標準、品質要求和區域規範的機器人將獲得獎勵,違規者則面臨懲罰或取消資格,從而在自主機器網路中建立問責與信任機制。
第三方再質押網絡(如Symbiotic)同樣能提供對等的安全擔保。儘管懲罰參數體系仍需完善,相關技術已進入實用階段。我們預期產業安全準則即將形成,屆時懲罰參數將參照這些準則建模。
實施方案範例:
- 機器人公司加入Symbiotic 網路。
- 設定可驗證的罰沒參數(如「施加超過2500 牛頓的人類接觸力」);
- 質押者提供保證金確保機器人遵守參數;
- 若發生違規,質押金將作為受害者賠償金。
此模式既激勵企業將安全性置於首位,也透過質押資金池的保險機制促進消費者接受度。
Symbiotic 團隊對機器人領域的見解是:
Symbiotic 通用質押框架旨在將質押概念延伸至所有需要經濟安全背書的領域,無論是透過共享還是獨立模式。其應用場景從保險到機器人技術需具體案例具體設計。例如機器人網路可完全基於Symbiotic 框架構建,使利害關係人能為網路完整性提供經濟擔保。
4.填補機器人技術棧的空白
OpenAI 推動了AI 的普及,但ChatGPT 時刻的基石早已奠定。雲端服務打破了模型對本地算力的依賴,Huggingface 實現了模型開源,Kaggle 為AI 工程師提供了實驗平台。這些漸進式突破共同促成了AI 的大眾化。
與AI 不同,機器人領域在資金有限時難以入門。要實現機器人普及,其開發門檻需降至AI 應用開發般的便利程度。我們認為三個層面存在改善空間:融資機制、評估體系與教育生態。
融資是機器人領域的痛點。開發電腦程式僅需一台電腦和雲端運算資源,而建造功能完整的機器人必須採購馬達、感測器、電池等硬件,成本輕易突破10 萬美元。這種硬體屬性使機器人開發相比AI 缺乏靈活性且成本高昂。
現實場景的機器人評估基礎設施尚處萌芽期。 AI 領域已建立明確的損失函數體系,測試可完全虛擬化。但優秀的虛擬策略無法直接轉化為現實世界的有效方案。機器人需要在多樣化現實環境中測試自主策略的評估設施,才能實現迭代最佳化。
當這些基礎架構成熟後,人才將大量湧入,人形機器人將重演Web2 的爆發曲線。加密機器人公司OpenMind 正朝此方向推進——其開源專案OM1(「機器人版安卓系統」)將原始硬體轉化為具備經濟意識的可升級智能體。視覺、語言和運動規劃模組可像手機應用般即插即用,所有推理步驟均以簡明英語呈現,使操作員無需接觸固件即可審計或調整行為。這種自然語言推理能力讓新一代人才無縫進入機器人領域,為引爆機器人革命的開放平台邁出關鍵一步,正如開源運動對AI 的加速作用。

人才密度決定產業軌跡。結構化的普惠教育體系對機器人領域人才輸送至關重要。 OpenMind 登陸納斯達克標誌著智慧機器同時參與金融創新與實體教育的新紀元開啟。 OpenMind 與Robostore 共同宣布,將在美國K-12 公立學校推出首個基於Unitree G1 人形機器人的通用教育課程。課程設計具備平台無關性,可適應各類機器人形態,提供學生實踐操作機會。這個正向訊號強化了我們的判斷:未來數年機器人教育資源的豐富程度將比肩AI 領域。
5、未來展望
視覺- 語言- 行動模式(VLA)的創新與規模經濟效應,已催生出經濟實惠、高效且通用的人形機器人。隨著倉儲機器人向消費級市場擴展,安全性、融資模式與評估系統成為關鍵探索方向。我們堅信加密技術將透過三重路徑推動機器人發展:為安全提供經濟擔保、優化充電基礎設施、提升延遲表現與資料收集管道。
