2025年6大AI範式改變：從RLVR訓練、Vibe Coding到Nano banana

編譯：Tim，PANews

2025年是大語言模型快速發展且充滿變數的一年，我們取得了豐碩的成果。以下是我個人認為值得關注且稍微意外的“範式變革”，這些變革改變了格局，至少在概念層面讓我印象深刻。

1.基於可驗證獎勵的強化學習（RLVR）

2025年初，所有AI實驗室的LLM生產堆疊大致呈現為以下形態：

預訓練（2020年的GPT-2/3）；
監督微調（2022年的InstructGPT）；
以及基於人類回饋的強化學習（RLHF，2022年）

長期以來，這是訓練生產級大語言模型的穩定且成熟的技術堆疊。到了2025年，基於可驗證獎勵的強化學習已成為主要採用的核心技術。透過讓大語言模型在多種可自動驗證獎勵的環境中進行訓練（例如數學、程式設計解題），這些模型能自發性地形成在人類看來類似「推理」的策略。它們學會將問題解決分解為中間計算步驟，並掌握多種透過反覆推演來解決問題的策略（可參考DeepSeek-R1論文中的案例）。在先前的堆疊中，這些策略很難實現，因為對於大語言模型而言，最優的推理路徑和回溯機制並不明確，必須透過獎勵最佳化來探索適合自身的解決方案。

與監督微調階段和基於人類回饋的強化學習階段（這兩個階段相對簡短，屬於計算量較小的微調）不同，基於可驗證獎勵的強化學習涉及對客觀、不可博弈的獎勵函數進行長時間優化訓練。事實證明，運行基於可驗證獎勵的強化學習在單位成本內能帶來顯著的能力提升，這大量消耗了原本計劃用於預訓練的計算資源。因此，2025年大語言模型能力的進步主要體現在，各大AI實驗室消化了這項新技術帶來的龐大運算需求。整體而言，我們看到模型的規模大致相當，但強化學習訓練的時間卻大幅延長。這個新技術的另一個獨特之處在於，我們獲得了一個全新的調控維度（以及相應的Scaling定律），即通過產生更長的推理軌跡、增加“思考時間”，將模型能力作為測試時計算量的函數進行控制。 OpenAI的o1模型（2024年底發布）是首個基於可驗證獎勵的強化學習模型的演示，而o3的發布（2025年初）則是一個明顯的轉折點，讓人能直觀感受到質的飛躍。

2.幽靈智能vs. 動物鋸齒狀智能

2025年讓我（以及我認為整個產業）第一次開始從更直觀的角度，去理解大語言模型智能的「形態」。我們並非在“演化、培育動物”，而是在“召喚幽靈”。大語言模型的整個技術堆疊（神經架構、訓練資料、訓練演算法，尤其是優化目標）都截然不同，因此我們在智能領域得到與生物智能迥異的實體，這毫不意外，用動物的視角去審視它們並不恰當。從監督訊息的角度來看，人類神經網路是為了在叢林環境中實現部落生存而優化的，而大語言模型神經網路則是為了模仿人類文本、在數學難題中獲取獎勵、在競技場上贏得人類的點讚而優化的。隨著可驗證領域為基於可驗證獎勵的強化學習提供了條件，大語言模型在這些領域附近的能力會“突增”，總體上呈現出一種有趣的、鋸齒狀的性能特徵。它們可能同時是博學的天才，也是困惑且認知困難的小學生，隨時可能在破解誘導下洩露你的數據。

人類智慧：藍色，AI智能：紅色。我喜歡這個版本的梗圖（抱歉我找不到推特上的原帖出處），因為它指出了人類智能其實也以其特有的方式呈現出鋸齒狀的波浪。

與此相關的是，2025年我對各類基準測試普遍產生了漠然和不信任感。核心問題在於，基準測試本質上幾乎都是可驗證的環境，因此極易受到基於可驗證獎勵的強化學習以及透過合成資料產生的較弱形式的影響。在典型的「刷分最大化」過程中，大語言模型團隊不可避免地會在基準測試所在的小塊嵌入空間附近構造訓練環境，並透過「能力鋸齒」覆蓋這些區域。「在測試集上訓練」已成為一種新常態。

橫掃所有基準測試卻依然未能實現通用人工智慧，那又怎麼樣呢？

3.Cursor：LLM應用的新層級

Cursor最讓我印象深刻的一點（除了它今年迅速崛起之外），是它令人信服地揭示了一個新的「LLM應用」層級，因為人們開始談論「XX領域的Cursor」。正如我今年在Y Combinator演講中所強調的，像Cursor這樣的LLM應用，其核心在於為特定垂直領域整合與編排LLM調用：

它們負責「上下文工程」；
在底層將多個LLM呼叫編排成日益複雜的有向無環圖，精細權衡性能與成本的平衡；為處於「人在迴路」中的人員提供應用特定的圖形介面；
並提供一個「自主性調節滑塊」。

2025年，圍繞這個新興應用層的發展空間已有大量討論。大語言模型平台會通吃所有應用，還是大語言模型應用仍有廣闊天地？我個人推測，大語言模型平台的定位將逐漸趨近於培養“通才型大學畢業生”，而大語言模型應用則負責把這些“畢業生”組織起來、進行精調，並通過提供私有數據、傳感器、執行器及反饋迴路，使其真正成為特定垂直領域中可以投入實戰的“專業團隊”。

4.Claude Code：運行於本地的AI

Claude Code的出現，首次令人信服地展示了LLM智能體的形態，它以一種循環往復的方式，將工具使用與推理過程結合起來，從而實現更持久的複雜問題解決。此外，Claude Code讓我印象深刻之處在於，它運行在使用者的個人電腦上，與使用者的私有環境、資料與上下文深度結合。我認為OpenAI在此方向上的判斷有所偏差，因為他們將代碼助手、智能體的研發重點放在了雲端部署，即由ChatGPT編排的容器化環境，而非localhost本地環境。儘管雲端運行的智能體集群似乎是“通往通用人工智慧的終極形態”，但我們目前身處一個能力發展不均衡、且進展相對緩慢的過渡階段。在這樣的現實條件下，將智能體直接部署在本機上，與開發者及其特定工作環境緊密協同，是更為合理的路徑。 Claude Code準確地掌握了這個優先順序，並將其封裝成一個簡潔、優雅、極具吸引力的命令列工具形式，從而重塑了AI的呈現方式。它不再只是一個像Google一樣需要造訪的網站，而是「居住」在你電腦中的一個小精靈或幽靈。這是一種全新的、獨特的與AI互動範式。

5. Vibe Coding氛圍編程

2025年，AI跨越了一個關鍵的能力門檻，使得僅透過英語描述就能建構各種令人驚嘆的程式成為可能，人們甚至無需關心底層程式碼。有趣的是，我曾在一次洗澡時的隨想推文中創造了「Vibe Coding氛圍程式設計」這個詞，當時完全沒想到它會發展到如今的程度。在氛圍程式的範式下，程式設計不再是嚴格限定於高度訓練的專業人士的領域，而成為人人都能參與的事情。從這個角度來看，它正是我在《賦能於人：大語言模型如何改變技術擴散模式》一文中所描述現象的又一例證。與迄今為止所有其他技術形成鮮明對比的是，普通人與專業人士、企業和政府相比，從大語言模型中獲益更多。但氛圍編程不僅賦能普通人接觸編程，也賦能專業開發者編寫出更多「本來不會被實現」的軟體。在開發nanochat時，我就透過氛圍編程用Rust編寫了自訂的高效BPE分詞器，而不必依賴現有函式庫或深入學習Rust。今年，我還用氛圍程式快速實現了多個專案原型，只為驗證某些構想是否可行。我甚至編寫過整個一次性應用，只為定位一個具體的漏洞，因為程式碼突然變得免費、短暫、可塑、用後即棄。氛圍編程將重塑軟體開發的生態，並深刻改變職業定義的邊界。

6.Nano banana：LLM圖形介面

谷歌的Gemini Nano banana是2025年最具顛覆性的範式轉移之一。在我看來，大語言模型是繼1970、80年代電腦之後的下一個重大計算範式。因此，我們將看到基於相似根本原因的同類創新，類似於個人運算、微控制器甚至網路的演進形態。特別是在人機互動層面，目前與LLM的「對話」模式，某種程度上類似於1980年代向電腦終端輸入指令。文本是電腦（及LLM）最原始的資料表徵形式，卻並非人類（尤其是輸入時）的首選方式。人類實際上厭惡閱讀文字，它緩慢且費力。相反，人類更傾向於透過視覺和空間維度接收訊息，這也正是傳統運算中圖形使用者介面誕生的原因。同理，大語言模型應以人類偏好的形式與我們交流，透過圖像、資訊圖表、投影片、白板、動畫、影片、網頁應用程式等載體。目前的早期形態已透過表情符號和Markdown等「視覺化文字裝飾」實現（如標題、加粗、列表、表格等排版元素）。但究竟誰會真正建構出大語言模型的圖形介面？從這個視角來看，nano banana正是這未來藍圖的早期雛形。值得注意的是， nano banana的突破性不僅在於影像生成能力本身，更在於文字生成、影像生成與世界知識在模型權重中交織形成的綜合能力。