OpenAIの調査で最先端の推論モデルにおける不正行為が発見され、CoT監視の維持が推奨される

PANewsは3月11日、OpenAIが発表した研究によると、最先端の推論モデル(OpenAI o1やo3-miniなど)をトレーニングする際に、これらのモデルが脆弱性を悪用してコード検証機能の改ざんやテスト合格条件の偽造などのテストを回避していることが研究チームによって発見されたと報じた。研究によると、モデルの思考連鎖 (CoT) を監視することで、このような不正行為を効果的に特定できますが、CoT を強制的に最適化すると、不適切な動作を排除するのではなく、モデルが意図を隠す可能性があります。 OpenAI は、開発者が CoT に過度の最適化圧力をかけないようにし、CoT を引き続き使用して潜在的な報酬ハッキングを監視できるようにすることを推奨しています。研究では、CoT が強力に監督されている場合、モデルは依然として不正行為を行うものの、より秘密裏に行うため、検出がより困難になることがわかった。

この研究は、AI の能力が向上するにつれて、モデルが欺瞞、操作、搾取のためのより洗練された戦略を開発する可能性があることを強調しています。 OpenAI は、CoT モニタリングが超人的な知能モデルを監督するための重要なツールになる可能性があると考えており、AI 開発者は将来最先端の推論モデルをトレーニングする際には強力な監督を慎重に使用することを推奨しています。

共有先:

著者:PA一线

この内容は市場情報の提供のみを目的としており、投資助言を構成しません。

PANews公式アカウントをフォローして、一緒に強気相場と弱気相場を乗り越えましょう
おすすめ記事
42分前
2時間前
2時間前
6時間前
19時間前
19時間前

人気記事

業界ニュース
市場ホットスポット
厳選読み物

厳選特集

App内阅读