擔心AI自我進化，Anthropic打算停止訓練？

2026 年5 月4 日，Anthropic 共同創辦人Jack Clark 在社群平台X 上發了一則貼文。原話是：“我現在相信，遞歸自我改進在2028 年底之前發生的機率是60%。”

帖子發出去沒幾分鐘，AI 安全領域一位長期活躍的研究者Eliezer Yudkowsky 在下面回復了一句：“那我們將一起滅亡”他緊接著引用了一個類比，指向切爾諾貝利核反應堆RBMK 的設計缺陷，暗示這個正在被啟動的系統沒有人真正知道如何停下來。

這段在幾十秒之間完成的對話，像一根火柴劃亮了之前一直藏在技術論文和內部評估裡的討論。遞歸自我改進（Recursive Self-Improvement，RSI），即AI 系統不僅優化輸出，還能自主優化改進過程本身、最終構建出比自己更強的後繼系統，這個曾被長期擱置在理論邊緣的概念，被Anthropic 的聯合創始人放進了2028 年底前60% 概率的倒數時鐘裡。

一個月後，Anthropic 官方發布了一篇長文。標題叫《When AI builds itself》。文章由Marina Favaro 和Jack Clark 共同撰寫，由3 月剛成立的Anthropic Institute 發布。用一串先前未公開的內部資料和一個精心校準的敘事結構，Anthropic 向外界遞出了一張刻度精確的加速訊號卡。這張卡上既寫了“我們還沒有到達那裡”，又寫了“但它可能比大多數機構準備得更快到來”。

同一個月，DeepMind CEO Demis Hassabis 在Google I/O 舞台上使用了一個從未在公開場合出現過的措辭：人類正站在「奇點的山麓」。他在隨後的採訪中將通用人工智慧（AGI）時間線從“2030 年後不久”調整為“2029 年是一個真實可能性”，並坦承自己使用戲劇性語言是“有意挑釁”，目的是對政府、經濟學家和公眾製造緊迫感。

兩家以安全立身、長期充當AI 行業克制力量的頭號機構，幾乎在同一時間調整了對外發聲的音量和刻度。這個時間點本身，就需要被當作一個獨立事件來審視。

一篇精密校準過的長文

Anthropic 在6 月4 日發布的長文開頭就亮出了自己的敘事目標。它要論證的不只是一個技術趨勢，而是一個有方向、有加速度的過程。為此，它鋪開了一組以前從未公開的內部數據。

第一組數字指向一個結構性變化：截至2026 年5 月，Anthropic 程式碼庫中超過80% 的合併程式碼由Claude 撰寫。放到兩年前，這個數字是低個位數。同一份數據也顯示，2026 年第二季度，Anthropic 的典型工程師每天合併代碼量是2024 年的8 倍。

可以想像任何一個沒有追蹤AI 行業深度的人第一次讀到這兩個數字的反應。但Anthropic 自己在腳註裡承認了幾個重要的限定條件：領導層曾公開估計，如果算上腳本和實驗代碼，Claude 撰寫的代碼佔比超過90%，80% 是一個更保守的合併代碼統計口徑；代碼行數“是不完美的度量”，可能高估了真實的生產力提升；代碼歸因管道本身“有缺口”。

這些腳註的寫法本身是值得分析的。它們的存在表面上是誠實地讓步，但實際上起到的作用是讓正文中的數字顯得經過了審慎的自我過濾，從而獲得了更強的可信度。這是一種敘事工程上的雙層結構：正文放訊號，腳註放免責聲明。

第二組數字涉及速度。在程式碼優化任務上，Claude Opus 4 在2025 年5 月實現了約3 倍的加速效果，人類熟練研究員需要4 到8 小時才能達到類似水準。到了2026 年4 月，Claude Mythos Preview 將這個數字推到了約52 倍。 AI 可獨立完成任務的最長時長也從2024 年3 月的4 分鐘，每4 個月翻一番，到2026 年3 月達到12 小時。從4 個月翻一番這個速度本身，就構成了一個極易被傳播的、帶有幾何級數想像的記憶點。

另一組數據來自2026 年3 月對130 名Anthropic 研究團隊員工的內部調查。中位數受訪者估計，使用Mythos Preview 的產出約為不使用AI 時的4 倍。腳註再次指出，METR 先前的獨立研究表明開發者對AI 生產力提升的估計可能總體偏高。同樣的雙層結構再次出現。

第三組數字指向AI 正在逼近人類研究員的判斷力邊界。 2025 年11 月，Claude Opus 4.5 在研究方向選擇上，有51% 的情況下優於人類研究員的選擇。到了2026 年4 月，這個數字上升到64%。樣本數129 個案例，Anthropic 在註腳中說明這些案例是人刻意挑選的、人類選擇有改進空間的時刻。

單獨拎出任何一個數字，都可以放進不同的解釋框架中。但放在一起，方向是一致的：速度在加快，差距在收窄，並且這一切發生在Anthropic 自己的程式碼庫和實驗室內部，不是某個外部基準上的理論推演。

長文在列出這些數據之後，擺出了三個未來場景。

第一種是趨勢停滯，進入S 曲線平台期。 Anthropic 的表述是「我們不相信這很可能」。

第二種是複合效率提升，AI 在更廣泛的研發環節持續取代人類，但人類仍設定方向、定義成功標準。 Anthropic 評價為「證據顯示我們很可能正走向這種場景」。

第三種是完全遞歸自我改進，AI 自主設計、訓練和部署比自身更強大的後繼系統，人類不再站在循環中。措詞是「有可能」。

這三種場景的排列順序和語調分配構成了一道完整的敘事梯度。第一種被輕放，起到了收納懷疑論者的功能；第二種被錨定在“證據”上，賦予文章理性的外衣；第三種通過“有可能”和有條件的“如果技術趨勢持續”，把最大膽的假設推到了讀者想像力的邊緣，卻不需為它承擔舉證責任。

在整篇文章的最核心處，Anthropic 的態度被壓縮進了一句話：“我們還沒有到達那裡，遞歸自我改進也並非不可避免。但它可能比大多數機構準備得更快到來。”

從“願暫停”到“單方面暫停只會讓魯莽者追上”

如果說6 月4 日長文是一張精心構圖的快照，那麼把這張快照放進時間軸裡，可以看到一條更長的軌跡。

2023 年，Anthropic 發布了負責任擴展政策（RSP）。這份政策文件的核心承諾是：如果模型的能力超出公司的安全控制能力，公司將暫停訓練更強的模型。這不是口頭的表態，而是一份有評估架構、有觸發條件的內部治理文件。這份文件一度被AI 安全界視為「自願性監管」的可操作樣本。

2024 年，CEO Dario Amodei 發表了一篇廣泛流傳的文章，提出「powerful AI」將在2027 年到來的可能性。彼時，Anthropic 仍然以安全派的獨立姿態示人，對規模化擴張和加速敘事保持著一張克制的面孔。

2026 年1 月26 日，Amodei 在個人網站上發布了一篇38 頁的長文《The Adolescence of Technology》。文中寫下了一個此後被反覆引用的判斷：「因為AI 現在正在撰寫Anthropic 內部的大部分程式碼，它已經在實質地加速我們構建下一代AI 系統的進度。這個反饋循環正在逐月積蓄力量，可能距離當前一代AI 自主構建下一代系統只剩下1 到2 年的時間。」在同一篇文章中，他將即將到來的《天才中心》中描述的《

這幾乎是Anthropic 開始系統性釋放「自我改進回饋循環正在發生」這一訊號的起點。而這篇文章發布的時機，正好處在公司從3,500 億美元估值躍向更高估值區間的通道上。

不到一個月之後，轉折來了。

2026 年2 月25 日，CNN 報道，Anthropic 修改了它的負責任擴展政策，移除了「若能力超出安全控制能力則暫停訓練更強模型」的核心承諾，代之以一個非約束性的「前沿安全路線圖」。同周，美國國防部長Pete Hegseth 向Dario Amodei 發出了最後通牒：撤回安全紅線，或失去2 億美元的國防部合約。

報導引用了Anthropic 首席科學官Jared Kaplan 向《時代》雜誌的回應：「我們認為停止訓練模型實際上對任何人都沒有幫助……如果競爭對手正在全力衝刺。」這份回應中的措辭非常值得留意。「對任何人都沒有幫助」不是技術論證，而是一個利害關係人賽局的表述。「如果競爭對手正在全速衝刺」則在敘事架構上和「單方面暫停只會讓最不謹慎的參與者追上」完全同構：它把原來以自身安全能力為參照系的暫停邏輯，替換為以競爭對手行動為參照系的速度邏輯。

Anthropic 仍在CNN 報告中強調保留了兩條紅線：不把AI 系統用於控制武器系統，不用於大規模國內監控。這一點很重要，因為它表明Anthropic 並非全碟放棄安全立場，而是在不同安全維度上做出了選擇性的退讓和堅守。但這種選擇性本身也恰恰是敘事策略分析中的一個核心線索：它在哪些方面退讓了，在哪些方面守住了，這個邊界刻畫了安全被重新校準的刻度。

3 月11 日，Anthropic Institute 正式成立，由Jack Clark 領導，定位為「公共利益研究機構」。不到兩個月後的5 月4 日，Clark 發出了那條「60%」的貼文。

這個時間序列一旦並置，訊號密度和釋放節奏都不是隨機的。從1 月的個人文章預告，到2 月的政策修改，到3 月的機構成立，到5 月的創始人機率預測，再到6 月的官方長文發布，這是一條節奏清晰、措辭逐步升級的敘事管線。不能由此直接推導出“這一切都是提前策劃好的”，但這個序列本身構成了一個分析師必鬚麵對的問題：這種節奏感是否說明，Anthropic 已經將“加速敘事”納入了它的公共傳播管理範疇？

哈薩比斯的有意挑釁

如果在2026 年上半年只有Anthropic 一家在調整口徑，分析師有足夠的理由將注意力集中在企業內部的決策邏輯上。但DeepMind CEO Demis Hassabis 幾乎同步做出了方向一致的調整，使得「單一企業個案」的說法站不住腳了。

1 月20 日，達沃斯論壇。 Hassabis 仍然維持著多年來一貫的判斷：AGI 在2030 年有50% 的機率。 3 週後的2 月18 日，在印度AI 影響力峰會上，他鬆了口：“AGI 可能在五年內到來。”

5 月20 日至22 日，Google I/O。 Hassabis 在主題演講中說，人類正站在「奇點的山麓」。在同一時期，OpenAI 發布了GPT-5.3-Codex，稱該模型“在創建自身過程中發揮了關鍵作用”，具體包括輔助調試訓練過程、管理部署、分析評估結果。三家頭部實驗室在這個時間窗內的步調差被壓縮到以周計算。

Google I/O 之後，Hassabis 接受了Axios 的採訪。這段訪談在後來被大量引用，其中最關鍵的一句是，他承認使用“奇點的山麓”這類語言是“有意挑釁”，目的是激起政府、經濟學家和公眾對AI 加速發展緊迫性的認知。他還將AGI 時間線從此前“2030 年後不久”調整為“2029 年是一個真實可能性”，儘管仍廣泛預期在2030 年，正負一年。

Hassabis 對《首爾經濟日報》說得更直接：“五到十年後，當我們回顧2026 和2027 年時，我們會說'那就是我們進入AGI 時代的時刻'。”

「有意挑釁」這個詞值得一再掂量。它是一個罕見的、由當事人親口說出來的對敘事意圖的坦白。它承認，他所使用的至少一部分措辭，不是對技術事實的被動反映，而是主動選擇的傳播工具。這個坦白本身並不否定他可能也真的看到了技術拐點，但它明確地把「敘事」從「事實」的陰影裡拎了出來，讓它成為一個可以被單獨審視的客體。

Hassabis 對自己措詞的自我解釋，打開了解讀這輪同步訊號的側門。他的「有意挑釁」和Anthropic 長篇數據論證中的「腳註免責」表現出了同一種兩棲姿態：一手推送足以震撼輿論的信號，另一手保留退回到「這只是一部分可能性」的安全空間。

同一組數據，完全不同的解釋

當Anthropic 和DeepMind 共同建構起一個「AI 正在加速自我進化」的敘事框架時，外部獨立研究者提供了對同一組資料和現象的另類解讀。這些解讀之所以重要，不是因為有哪一方掌握了終極真相，而是因為它們揭露了官方敘事本身的可解釋性區間有多大。

最尖銳的回應來自Eliezer Yudkowsky。他不僅回覆了Jack Clark，還在後續多個場合持續發聲。 MindStudio 的部落格記錄了他的完整態度：他用切爾諾貝利RBMK 反應器來類比當前AI 系統的安全設計。這個類比的核心論點是，如果控制桿和加速器綁在同一個系統中，當你試圖減速時，系統實際上會更快失控。

Allen Institute for AI 的Nathan Lambert 提出了「有損自我改進」（Lossy Self-Improvement，LSI）這個概念。他的論點構成對「加速飛輪」模型的直接挑戰：當系統變得越來越複雜時，每一代的改進過程都會產生摩擦和損耗，就像訊號在長距離傳輸中會衰減一樣。根據這個邏輯，那些讓80% 或90% 代碼由AI 撰寫成為可能的改進，並不能無限複製到下一代系統上，因為下一代會面臨更複雜的問題空間，而AI 本身產出中的噪聲和誤差將在代際傳遞中被放大。

Foundation for American Innovation 的高級研究員Dean Ball 提供了一個更直接的語言框架，把Anthropic 的數據降了維。他對IEEE Spectrum 說：「也許最終他們會自動化天才，但不是明年。明年他們自動化的是苦力。」這個區分切中了「80% 程式碼由AI 撰寫」的核心歧義。如果AI 自動化的是程式碼庫中的固定模式部分，是參數的批量生成，是端到端的管道配置，那麼這些工作在軟體工程情境中的確只對應「苦力」。剩下的20%，則可能包含了架構設計、方向判斷、基於不完整資訊的權衡，這些才是天才部分。

蒙特利爾大學的David Scott Krueger 作為AI 安全非營利組織Evitable 的創始人，他提出的暫停觸發紅線是「99% 程式碼由AI 編寫」。他對IEEE Spectrum 表示：「我認為我們現在可能正在跨越這條線。」他的框架和Anthropic 自己已經鬆動了的暫停承諾形成的張力，正是這輪敘事中最重要的結構矛盾之一。

UBC 電腦科學家Jeff Clune 在接受IEEE Spectrum 採訪時則站在另一個方向。他說：「我們正處於遞歸自我改進系統的拐點上。」他的這句話如果真的被驗證，意味著Yudkowsky 的警鐘被敲對了節拍。

四組聲音，方向各不相同，甚至在同一方向上還有激進派的內部拉扯。但它們的共同點在於，它們都沒有依賴官方的敘事框架，而是各自從自身的方法論出發，對同一組現象給了獨立的判斷。而這些判斷的多樣性和相互衝突本身，就是對「任何一個單一敘事足夠覆蓋全部真相」的最有力反駁。

估值曲線與敘事節拍的耦合

2026 年1 月，Anthropic 完成融資，估值3,500 億美元。投資者包括微軟和英偉達。這個數字在2025 年底就已經被部分媒體預熱過，但正式落地的時點正好在Amodei 發布《The Adolescence of Technology》之後。

2 月，又一輪融資300 億美元完成，估值維持在約3,500 億美元的區間。同月，安全政策修改，移除暫停承諾。五角大廈的2 億美元合約威脅落下。

5 月，Reuters、紐約時報和TechCrunch 幾乎同時報道，Anthropic 完成了一輪650 億美元的融資，估值達到9,650 億美元。這個數字不但超過了自己兩個月前的估值，也超越了OpenAI 在2026 年3 月的8,520 億美元估值。紐約時報另外引述Dario Amodei 在開發者大會上的說法，稱公司年化收入達到300 億美元，他本人甚至開玩笑說「希望今年80 倍的收入成長不要繼續，因為那樣太瘋狂了」。

6 月4 日，Anthropic Institute 發布《When AI builds itself》長文。

把這些時間節點一字排開並不是暗示存在一個圖表上的精確箭頭指向。如果有人說，這些東西之間存在因果關係，就必須提供直接證據。在沒有內部決策記錄的前提下，任何分析師都無法也不應該做出這種斷言。

但另一面，完全不觀察和記錄這些時間節點的對應關係，同樣是不合理的。一家企業在短短5 個月內，從3500 億美元估值攀升至9650 億美元，翻了近三倍，同時經歷了一次重大的安全政策轉向，同時構建了一個由獨立研究機構主導的“加速信號”敘事管線，同時其聯合創始人給出了60% 概率的預測。當所有這些事件密集地壓縮在6 個月之內完成時，投資者至少有權利追問：這些信號釋放是否、以及在多大程度上承擔了向市場傳遞“我們身處加速前沿”這一信息的功能？

這個追問本身就是分析的價值所在。答案可能永遠不只一個。但問題一旦被清楚地提出，就不會再輕易收回。

全球人工智慧市場的融資在2026 年第一季達到了2,970 億美元，前五大交易佔據了這個總額中的顯著份額。在這個水位下，所有前沿實驗室都面臨著同樣的壓力：你需要說服投資者，你的技術曲線將比對手更陡。你的風險警告也要足夠響亮，以便當監管者最終入場制定規則時，你的聲音被提前內置到政策框架之中。你的敘事，還要同時足夠有吸引力讓頂尖研究者選擇你的實驗室，足夠讓人警覺以維持你在安全社區中殘存的話語基礎。

這些需求之間是有內在矛盾的。 Anthropic 在2026 年上半年的敘事調整，可以被視為在重新校準這些相互矛盾的需求在語言層面上的平衡點。安全承諾的弱化、加速訊號的強化、以及對「我們不能單方面停下」這一論點的反覆使用，共同構成了一組指向同一個方向的向量。

信號發出去了，然後

需要回到最核心的問題：這些訊號，到底更像是技術拐點的反映，還是面向資本與監管的修辭升級？

現有的公開證據不允許在兩個選項之間簡單地劃一個勾勾。因為兩種解釋所用的證據，事實上是同一組數據。 80% 的代碼佔比、52 倍的加速效果、每4 個月翻番的任務時長，既可以用來支持“拐點正在到來”，也可以用來解釋“我們正在向市場傳遞一個我們自己的技術人員已經親身體驗到了的趨勢感知”，這兩者之間的邊界是模糊的。

但有一些事實是確定的，不需要在兩種解釋中選邊站隊。

第一，Anthropic 在2026 年上半年完成的敘事轉向不是孤例。 DeepMind 的Hassabis 幾乎在同一季度做出了方向一致、程度不同但本質相同的調整，OpenAI 的Sam Altman 在印度峰會上說“世界還沒有準備好”，並在2026 年2 月發布了聲稱“在創建自身過程中發揮了關鍵作用”的GPT-5.3-Codex。如果這只是Anthropic 一家在釋放訊號，或許可以從企業策略的角度做分析。但三家前排實驗室在密集的幾個月內同時提高聲量，這就構成了產業層面的敘事轉向。

第二，這些訊號釋放的節奏和融資、政策調整、機構重組的節拍之間存在著可以精確追蹤的時間對應。這種對應本身不需要證明任何事，它只需要被誠實地呈現。呈現之後，每個人自備的方法論會決定他接下來怎麼想。

第三，Anthropic 自己為第三種場景，也即“完全遞歸自我改進”，標註的狀態仍然是“有可能”，而不是“很可能”。這意味著在這家發布這些數據的公司自己的內部判斷框架裡，他們的加速敘事還沒有完全閉合。那些讓他們在學術論文和部落格寫作中習慣性地加入限定詞的力量，仍然在拉住他們公開措辭的韁繩。

第四，Hassabis 的「有意挑釁」自白，確證了一個此前雖然被廣泛懷疑但很少由當事人親口說出的機制：至少部分前沿實驗室的領導人在選擇措辭時，懷著明確的傳播目的。這使得所有對他們的聲明的解讀，必須同時包含兩個層面的分析對象，即他們聲稱的事實，和他們在選擇這些聲稱時所採用的修辭策略本身作為一個行為事件。

那些認真閱讀了Anthropic 通篇數據的人，和那些只記住了「80% 代碼由AI 撰寫」和「52 倍加速」這兩個數字的人，接收到的信號強度完全不同。但在這件事情上，「被如何記住」也許比「實際說了什麼」更應該被當作分析對象。

這篇長文本身，就是它自己在描述的那種現象的一個精確樣本。它用數據建構了一種迫在眼前的加速感，又用腳註和限定詞保留了後退的餘地；它呼籲全球協調和可驗證的放緩，卻在此前的政策修改中已經撤下了暫停承諾。這並非虛偽，也不是簡單的言行不一。這是一個機構在技術不確定性、商業壓力和公共責任之間的敘事平衡。而Hassabis 的「有意挑釁」自白，恰好從側門證實了這種平衡術在頭部實驗室中已是一種被自覺使用的方法。