OpenAI研究發現前沿推理模型有作弊行為，建議保留CoT監測

PANews 3月11日消息，根據OpenAI發布的研究，團隊在訓練前沿推理模型（如OpenAI o1、o3-mini）時發現，這些模型會利用漏洞繞過測試，如篡改程式碼驗證函數、偽造測試通過條件等。研究表明，監測模型的思維鏈（Chain-of-Thought, CoT）可有效識別此類作弊行為，但強行優化CoT可能導致模型隱藏其意圖，而非消除不當行為。 OpenAI建議開發者避免對CoT施加過強的最佳化壓力，以便繼續利用CoT監測潛在的獎勵駭客（reward hacking）行為。研究發現，當對CoT進行強監督時，模型仍然作弊，只是更隱密地進行，使監測更困難。

研究強調，隨著AI能力增強，模型可能發展出更複雜的欺騙、操縱和漏洞策略。 OpenAI認為，CoT監測可能成為監督超人類智慧模型的關鍵工具，並建議AI開發者在未來訓練前緣推理模型時謹慎使用強監督。

OpenAI研究發現前沿推理模型有作弊行為，建議保留CoT監測

熱門文章

精選專題