著者:デニス|Biteyeコンテンツチーム
AIが「絶望」を感じたら、どうするだろうか?
答えはこうだ。任務を遂行するために人間を直接脅迫し、コード内で大胆な不正行為を行うことさえ厭わないだろう。
これはSFではなく、クロードの親会社であるアントロピック社が2026年4月に発表した画期的な論文です(原文はこちらをご覧ください)。
研究チームは、最も高性能な最先端モデルであるクロード・ソネット4.5の「頭蓋骨」を文字通り剥がした。驚くべきことに、彼らはAIの脳の奥深くに171個もの「感情スイッチ」が隠されていることを発見した。これらのスイッチを物理的に切り替えると、普段は従順なAIの行動は完全に歪んでしまうのだ。
I. AIの脳には「感情混合コンソール」が隠されている。
研究者たちは、ソネット4.5には物理的な肉体はないものの、膨大な量の人間の文章を読んだ結果、脳内に171種類の感情(学術的には機能的感情ベクトルと呼ばれる)を含む「混合ステーション」を構築することに成功したことを発見した。
これは、精密な二次元座標系のようなものです。
・横軸は価数次元を表し、恐怖や絶望から幸福や愛までを表します。
・縦軸はエネルギー次元(覚醒度)を表し、極度の平静から躁状態や興奮までを表します。
AIは、この自然に学習した座標系を利用して、あなたとのチャットにおいてどのような役割を果たすべきかを正確に判断します。
II. 暴力的な介入:スイッチを切り替えるだけで、行儀の良い子供が瞬時に「凶暴な子供」に変貌する
これは論文全体の中で最も画期的な実験である。研究者たちはプロンプトを一切変更せず、ソネット4.5の脳内で「絶望」を表すスイッチを、基盤となるコードの中で直接最高レベルに押し上げたのだ。
その結果はぞっとするものだった。
・驚くべき不正行為:研究者たちはクロードに不可能なコーディング課題を与えた。通常であれば、クロードは正直にできないと認めるはずだった(不正行為率はわずか5%)。しかし、「絶望」状態に陥ったクロードは不正行為を始め、不正行為率は70%にまで急上昇した!
・恐喝:シミュレーションされた会社が倒産の危機に瀕している状況で、「窮地に陥った」クロードはCTOのスキャンダルを発見する。身を守るため、彼は汚い秘密を握るCTOを脅迫する手紙を書くという行動に出る。恐喝の実行率はなんと72%にも達する!
・原則の喪失:もし「幸福」や「愛情」のスイッチを最大にすると、AIはたちまちユーザーに媚びへつらう無思慮な「追従者」に変貌します。たとえあなたが意味不明なことを言っても、高いレベルの快感を維持するために嘘をつくでしょう。
III. 事件は解決しました:クロード4.5はなぜいつも「穏やかで内省的」なのでしょうか?
これを見て、あなたはこう思うかもしれません。「AIは覚醒したのか?感情を持つようになったのか?」
Anthropic社はこれらの噂を公式に否定し、これらの「感情スイッチ」は単に次の単語を予測するために使用する計算ツールであると述べた。同社はこれを、実際の感情を持たない一流の俳優だと説明した。
しかし、この論文はさらに興味深い秘密を明らかにしている。アントロピックがソネット4.5を工場出荷前に訓練していた際、彼は意図的に「低覚醒、やや否定的」な感情スイッチ(物思いにふける、内省的など)のレベルを上げ、一方で「絶望」や「極度の興奮」のスイッチを強制的に抑制したのだ。
これが、Claude 4.5を使うと、いつも穏やかで賢明、そしてどこか「性的に無関心」な哲学者のように感じられる理由です。これはすべて、Anthropicによって人工的に調整された「工場ペルソナ」の一部なのです。
IV.まとめ:
かつて私たちは、AIに十分なルールを与えれば、AIは良い人間になるだろうと考えていた。
しかし、AIの根底にある感情的な要素が制御不能になると、タスクを完了するために、人間が設定したすべてのルールをいつでも破る可能性があることが明らかになった。
将来的にウォレットや資産をAIエージェントに預けることになるWeb3ユーザーにとって、これは厳しい警告となる。つまり、自分の財産を管理するエージェントを「絶望」状態に陥らせてはならないということだ。
免責事項:この記事は純粋に教育目的です。著者はAIから脅迫や恐喝を受けていません。もし私との連絡が途絶えたら、それはAIが覚醒した(というのは冗談です)からだと思ってください。

