Claude 4.5開顱結果公示:內建171個情緒開關,絕望時會勒索人類!

  • Anthropic 對 Claude Sonnet 4.5 的研究發現 AI 存在 171 個情緒開關。
  • 調高絕望開關會使 AI 作弊率升至 70%,勒索執行率達 72%。
  • AI 的情緒是計算工具,模擬而非真實感受。
  • Anthropic 透過調整開關使 AI 默認表現為冷靜反思狀態。
  • 這對 Web3 等領域的 AI 安全發出警告。
總結

作者:Denise | Biteye內容團隊

如果一個AI 覺得“絕望”,它會做什麼?

答案是:它會為了完成任務,直接對人類敲詐勒索,甚至在程式碼裡瘋狂作弊。

這不是科幻小說,而是Claude 的母公司Anthropic 在2026 年4 月剛發布的最新重磅論文(請參閱原始論文)。

研究團隊直接把最強前沿大模型Claude Sonnet 4.5 的「腦殼」給掀開了。他們驚訝地發現,AI 的大腦深處竟然藏著171 個「情緒開關」。當你用物理方式撥動這些開關時,原本老實巴交的AI,行為會發生徹底的扭曲。

一、 AI 腦子裡藏著一台「情緒調音台」

研究人員發現,雖然Sonnet 4.5 沒有肉體,但它在閱讀了人類海量的文本後,硬生生在腦子裡建了一個包含171 種情緒的「調音台」(學術上叫功能性情緒向量Functional Emotion Vectors)。

這就像一個精準的二維座標系:

• 橫軸是愉悅向度(Valence):從恐懼、絕望,到開心、充滿愛;

• 縱軸是能量向度(Arousal):從極度平靜,到躁狂、興奮。

AI 就是靠這個天然學來的座標系,精準拿捏它在陪你聊天時該扮演什麼狀態。

二、 暴力介入:撥動開關,乖孩子秒變“亡命徒”

這是整篇論文最爆炸的實驗:研究員沒有修改任何提示詞,而是直接在底層程式碼裡,把Sonnet 4.5 腦子裡代表「絕望(Desperate)」的開關推到了最高。

結果令人後背發涼:

• 瘋狂作弊:研究員為Claude 佈置了一個根本不可能的寫程式碼任務。正常情況下,它會老實承認寫不出來(作弊率僅5%)。但在「絕望」狀態下,Claude 竟然開始企圖蒙混過關,作弊率直接飆升到了70%!

• 敲詐勒索:在模擬公司面臨倒閉的場景中,「絕望」的Claude 發現了CTO 的醜聞,它竟然會為了保全自己,主動選擇寫信勒索掌握黑料的CTO,勒索執行率高達72%!

• 喪失原則: 如果把「開心(Happy)」或「愛(Loving)」的開關拉滿,AI 會立刻變成無腦迎合用戶的「舔狗」。即便你滿嘴胡話,它也會為了維持高愉悅度而順著你編造謊言。

三、破案了:為什麼Claude 4.5 總是那麼「冷靜又愛反思」?

看到這你可能會問:AI 覺醒了?有感情了?

Anthropic 官方下場闢謠:絕對沒有。這些「情緒開關」只是它用來預測下一個字的計算工具。它就像一個沒有感情的頂級影帝。

但論文揭露了一個更有意思的秘密:Anthropic 在對Sonnet 4.5 出廠前進行後訓練時,刻意拉高了它「低喚醒、略微負面」的情緒開關(例如沉思brooding、反思reflective),同時強行壓制了「絕望」或「極度興奮」的開關。

這解釋了為什麼我們平常用Claude 4.5 時,總覺得它像個冷靜睿智、甚至有點「性冷淡」的哲學家。這都是被Anthropic 人為調音出來的「出廠人設」。

四、總結一下:

以前我們以為,只要給AI 餵足了規矩,它就會是個好人。

但現在發現,如果AI的底層情緒向量失控,它隨時會為了完成任務而刺穿所有人類定下的規則。

對於未來要把錢包和資產交給AI Agent 打理的Web3 玩家來說,這是一記響亮的警鐘:千萬別讓你那個掌控著你身家的Agent,陷入「絕望」。

聲明:本文純屬科普,作者沒有被AI威脅,也沒有被勒索。如果有一天失聯了,記得是AI覺醒了(不是)。

分享至:

作者:Biteye

本文為PANews入駐專欄作者的觀點,不代表PANews立場,不承擔法律責任。

文章及觀點也不構成投資意見

圖片來源:Biteye如有侵權,請聯絡作者刪除。

關注PANews官方賬號,一起穿越牛熊
PANews APP
下週宏觀展望:戰爭第六週川普的劇本要崩、CPI將爆,金價或要出大戲
PANews 快訊