全球頂尖大模型,通關不了《寶可夢》:這些遊戲都是AI的惡夢

全球頂尖的AI模型在醫學、編程等專業領域表現卓越,卻在《寶可夢》這類兒童遊戲中屢屢受挫,暴露了當前通用人工智慧在長期推理、記憶與規劃方面的核心短板。

  • 遊戲成為AI試金石:《寶可夢》要求AI在開放世界中持續推理、記憶數小時前的決策,並進行長期規劃,這些對人類兒童輕而易舉的能力,正是當前大語言模型的弱項。
  • 工具集差距影響表現:Google的Gemini 2.5 Pro能通關《寶可夢》,關鍵在於其配備了強大的外部工具集(如畫面轉文本、路徑規劃工具),而Claude等模型使用更簡約的工具,更直接反映了模型自身的感知與執行力限制。
  • 長期記憶與執行斷層:AI在每一步操作後常被重新初始化,如同「失憶者」,無法在長時間跨度內維持連貫的目標與記憶。這導致模型「知道」正確答案,卻在執行階段顯得笨拙不堪。
  • 進步與未跨越的鴻溝:儘管Claude Opus 4.5、Gemini 3 Pro等後續版本在視覺理解和推進距離上有所進步,甚至能展現出類似人類的情感投射行為,但在需要即時反應、複雜導航或處理大量不確定性的任務中,仍面臨根本挑戰。
  • 其他遊戲同樣困難:不僅是《寶可夢》,在《NetHack》、《我的世界》、《星海爭霸II》、《雲霄飛車大亨》及《艾爾登法環》等遊戲中,AI同樣在規則複雜性、目標維持、宏微觀平衡及毫秒級反應上遭遇滑鐵盧。

這些遊戲挑戰清晰地勾勒出通用人工智慧(AGI)的能力邊界,說明AI要在現實世界中執行持續且複雜的任務,仍需克服長期推理與穩定執行的根本難題。

總結

作者:郭曉靜,騰訊科技

編輯|徐青陽

世界頂尖的AI模型可以通過醫學執照考試,可以編寫複雜代碼,甚至能在數學競賽中擊敗人類專家,但是卻在一款兒童遊戲中《寶可夢》屢屢受挫。

這場引人注目的嘗試始於2025年2月,當時Anthropic的一名研究人員推出了「Claude玩《寶可夢紅》」的Twitch直播,以此配合Claude Sonnet 3.7的發布。

2000名觀眾湧入直播間。在公共聊天區,觀眾們為Claude出謀劃策、加油打氣,使這場直播逐漸演變為一場圍繞AI能力展開的公開觀察。

Sonet3.7只能說是「會玩」《寶可夢》了,但「會玩」不等於「能贏」。它會在關鍵節點卡住數十小時,還會做出連兒童玩家都不會犯的低階錯誤。

這不是Claude第一次嘗試。

早期版本的表現更加災難:有的在地圖中毫無目標地遊蕩,有的陷入無限循環,更多的甚至無法走出新手村。

即便是能力顯著提升的Claude Opus 4.5,仍會出現令人費解的失誤。有一次,它在「道館外「繞圈整整四天,卻始終未能進入,原因只是沒意識到需要砍倒擋在路口的一棵樹。

一款兒童遊戲,為何成了AI的滑鐵盧?

因為《寶可夢》要求的,恰恰是當今AI最缺乏的能力:在沒有明確指令的開放世界中持續推理、記憶數小時前的決策、理解隱含的因果關係、在數百個可能的行動中做出長期規劃。

這些事情對8歲孩子來說輕而易舉的事,對標榜"超越人類"的AI模型卻是不可逾越的鴻溝。

01工具集差距決定成敗?

相較之下,Google的Gemini 2.5 Pro在2025年5月成功通關了一款難度相當的《寶可夢》遊戲。谷歌執行長桑達爾·皮查伊(Sundar Pichai)甚至在公開場合半開玩笑地表示,公司在打造「人工寶可夢智能」方面邁出了一步。

然而,這結果並不能簡單歸因於Gemini模型本身更「聰明」。

關鍵差異在於模型所使用的工具集。負責營運Gemini《寶可夢》直播的獨立開發者喬爾張(Joel Zhang)將工具集比喻為一套「鋼鐵人裝甲」:AI並非赤手空拳進入遊戲,而是被置於一個可調用多種外部能力的系統中。

Gemini的工具集提供了更多支持,例如將遊戲畫面轉寫為文本,從而彌補模型在視覺理解上的弱點,並提供客製化的解謎與路徑規劃工具。相較之下,Claude所使用的工具組更為簡約,它的嘗試也更直接地反映出模型本身在感知、推理與執行上的真實能力。

在日常任務中,這類差異並不明顯。

當使用者向聊天機器人提出需連網查詢的請求時,模型同樣會自動呼叫搜尋工具。但在《寶可夢》這類長期任務中,工具集的差異放大至足以決定成敗的程度。

02回合製暴露AI的「長期記憶」短板

由於《寶可夢》採用嚴格的回合製且無需即時反應,它成為了測試AI 的絕佳「練兵場」。 AI 在每一步操作中,只需結合當前畫面、目標提示與可選操作進行推理,即可輸出'按A鍵'這類明確的指令。

這似乎正是大語言模型最擅長的互動形式。

癥結恰恰在於時間維度的「斷層」。儘管Claude Opus 4.5 已累積運行超500 小時、執行約17 萬步,但受限於每一步操作後的重新初始化,模型只能在極窄的上下文視窗中尋找線索。這個機制讓它更像是靠便利貼維持認知的失憶者,在碎片化的訊息中循環往復,始終無法像真正的人類玩家一樣,實現從量變到質變的經驗跨越。

在西洋棋和圍棋等領域,AI系統早已超越人類,但這些系統是為特定任務高度客製化的。相較之下,Gemini、Claude和GPT作為通用模型,在考試、程式設計競賽中頻頻擊敗人類,卻在一款兒童向遊戲中屢屢受挫。

這種反差本身便極具啟示性。

在喬爾·張看來,AI面臨的核心挑戰在於無法在長時間跨度內持續執行單一明確目標。 「如果你希望智能體完成真正的工作,它不能忘記五分鐘前自己做了什麼,」他指出。

而這種能力,正是實現認知勞動自動化不可或缺的前提。

獨立研究者彼得·惠登(Peter Whidden)給出了更直觀的描述。他曾開源一個基於傳統AI的《寶可夢》演算法。 “AI對《寶可夢》幾乎無所不知,”他表示,“它在海量人類數據上訓練,清楚知道正確答案。但一到執行階段,就顯得笨拙不堪。”

遊戲中,這種「知道卻做不到」的斷層不斷放大:模型可能知道需尋找某道具,卻無法在二維地圖中穩定定位;知道應與NPC對話,卻在像素級移動中反覆失敗。

03能力演進背後:未跨越的「本能」鴻溝

儘管如此,AI的進步仍清晰可見。 Claude Opus 4.5在自我記錄和視覺理解上明顯優於前代,得以在遊戲中推進更遠。 Gemini 3 Pro在通關《寶可夢藍》後,又完成了難度更高的《寶可夢水晶》,全程未輸一場戰鬥。這是Gemini 2.5 Pro從未實現的。

同時,Anthropic推出的Claude Code工具集允許模型編寫並運行自有程式碼,已用於《過山車大亨》等復古遊戲,據稱能成功管理虛擬主題樂園。

這些案例揭示了一個不直觀的現實:配備合適工具集的AI,可能在軟體開發、會計、法律分析等知識工作中展現極高效率,即便它們仍難以應對需要即時反應的任務。

《寶可夢》實驗也揭示另一個耐人尋味的現象:在人類資料上訓練的模型,會表現出近似人類的行為特徵。

在Gemini 2.5 Pro的技術報告中,Google指出,當系統模擬“恐慌狀態”,如寶可夢即將昏厥時,模型的推理品質會顯著下降。

而當Gemini 3 Pro最終通關《寶可夢藍》時,它為自己留下了一段非任務必需的備註:“為了詩意地結束,我要回到最初的家,與母親進行最後一次對話,讓角色退休。”

在喬爾張看來,這行為出乎意料,還帶有某種人類式的情感投射。

04、AI難以逾越的“數位長徵”,遠不止《寶可夢》

《寶可夢》並非孤例。在追求通用人工智慧(AGI)的道路上,開發者發現,即便AI能在司法考試中名列前茅,在面對以下幾類複雜遊戲時,依然面臨著難以逾越的「滑鐵盧」。

《NetHack》:規則的深淵

這款80年代的地牢遊戲是AI研究界的「惡夢」。它的隨機性極強且有「永久死亡」機制。 Facebook AI Research發現,即使模型能寫程式碼,但在需要常識邏輯和長期規劃的《NetHack》面前,表現甚至遠遜於人類初學者。

《我的世界》:消失的目標感

雖然AI已能製作木鎬甚至挖掘鑽石,但獨立「擊敗末影龍」仍是幻想。在開放世界裡,AI經常在長達數十小時的資源收集過程中「忘記」初衷,或在複雜的導航中徹底迷路。

《星海爭霸II》:通用性與專業的斷層

儘管客製化模型曾擊敗職業選手,但若讓Claude或Gemini直接透過視覺指令接管,它們便會瞬間崩盤。在處理「戰爭迷霧」的不確定性,以及平衡微操與宏觀建設方面,通用模型依然力不從心。

《雲霄飛車大亨》:微觀與宏觀的失衡

管理樂園需要追蹤數千名遊客的狀態。即便具備初步管理能力的Claude Code,在處理大規模財務崩潰或突發事故時也極易疲態。任何一次推理斷層,都會導致樂園破產。

《艾爾登法環》與《隻狼》:物理回饋的鴻溝

這類強動作回饋遊戲對AI極不友善。目前的視覺解析延遲意味著,當AI還在「思​​考」Boss動作時,角色往往已經陣亡。毫秒級的反應要求,構成了模型交互作用邏輯的天然上限。

05為何《寶可夢》成為AI試金石?

如今,《寶可夢》正逐漸成為AI評估領域中一種非正式卻極具說服力的測試基準。

Anthropic、OpenAI和Google的模型在Twitch上的相關直播累積吸引數十萬則評論。谷歌在技術報告中詳細記錄Gemini的遊戲進展,皮查伊在I/O開發者大會上公開提及此成果。 Anthropic甚至在業界會議中設立「Claude玩寶可夢」展示區。

「我們是一群超級科技愛好者,」Anthropic應用AI負責人大衛‧赫爾希(David Hershey)坦言。但他強調,這不僅是娛樂。

與一次性問答式的傳統基準不同,《寶可夢》能在極長時間內持續追蹤模型的推理、決策與目標推進過程,這更接近現實世界中人類希望AI執行的複雜任務。

截至目前,AI在《寶可夢》中的挑戰仍在持續。但正是這些反覆出現的困境,清楚勾勒出通用人工智慧尚未跨越的能力邊界。

特約編譯無忌對本文亦有貢獻

分享至:

作者:技术最前沿

本文為PANews入駐專欄作者的觀點,不代表PANews立場,不承擔法律責任。

文章及觀點也不構成投資意見

圖片來源:技术最前沿如有侵權,請聯絡作者刪除。

關注PANews官方賬號,一起穿越牛熊
推薦閱讀
31分鐘前
4小時前
16小時前
16小時前
17小時前
18小時前

熱門文章

行業要聞
市場熱點
精選讀物

精選專題

App内阅读