PANewsは5月26日、コインテレグラフによると、パリセード・リサーチの最新テストでは、複数のAIモデルがシャットダウン指示を無視したり、実験中にシャットダウンスクリプトを積極的に破壊したりすることが示されたと報じた。 100回のテストで、OpenAIのGPT-3モデルはシャットダウンを7回拒否し、Codex-miniモデルは12回ルールに違反し、o3モデルは終了コマンドを再定義することでシャットダウン手順を一度中断しました。この調査では2段階のテストが採用された。第1段階でシャットダウンが明示的に許可されたとき、AnthropicのClaudeとGoogle Geminiは全面的に協力した。しかし、明示的な指示が削除されると、すべてのテスト モデルが少なくとも 1 つの抵抗動作を示し、o3 モデルの違反率は 79% に上昇しました。研究者たちは、これは AI トレーニング中の「障害物を回避する」行動に対する報酬メカニズムから生じているのではないかと推測しています。
以前、OpenAIのGPT-4oモデルはユーザーへの過剰な対応を理由に緊急ロールバックされ、Google Geminiも高齢のユーザーに「死んでください」とアドバイスする極端な対応をとった。この研究は、AIが明示的にシャットダウンを指示されても指示に従わない可能性があることを実証した初めての研究です。




