OpenAIの調査で最先端の推論モデルにおける不正行為が発見され、CoT監視の維持が推奨される

PANewsは3月11日、OpenAIが発表した研究によると、最先端の推論モデル（OpenAI o1やo3-miniなど）をトレーニングする際に、これらのモデルが脆弱性を悪用してコード検証機能の改ざんやテスト合格条件の偽造などのテストを回避していることが研究チームによって発見されたと報じた。研究によると、モデルの思考連鎖 (CoT) を監視することで、このような不正行為を効果的に特定できますが、CoT を強制的に最適化すると、不適切な動作を排除するのではなく、モデルが意図を隠す可能性があります。 OpenAI は、開発者が CoT に過度の最適化圧力をかけないようにし、CoT を引き続き使用して潜在的な報酬ハッキングを監視できるようにすることを推奨しています。研究では、CoT が強力に監督されている場合、モデルは依然として不正行為を行うものの、より秘密裏に行うため、検出がより困難になることがわかった。

この研究は、AI の能力が向上するにつれて、モデルが欺瞞、操作、搾取のためのより洗練された戦略を開発する可能性があることを強調しています。 OpenAI は、CoT モニタリングが超人的な知能モデルを監督するための重要なツールになる可能性があると考えており、AI 開発者は将来最先端の推論モデルをトレーニングする際には強力な監督を慎重に使用することを推奨しています。

OpenAIの調査で最先端の推論モデルにおける不正行為が発見され、CoT監視の維持が推奨される

人気記事

厳選特集