OpenAI研究發現前沿推理模型有作弊行為,建議保留CoT監測

PANews 3月11日消息,根據OpenAI發布的研究,團隊在訓練前沿推理模型(如OpenAI o1、o3-mini)時發現,這些模型會利用漏洞繞過測試,如篡改程式碼驗證函數、偽造測試通過條件等。研究表明,監測模型的思維鏈(Chain-of-Thought, CoT)可有效識別此類作弊行為,但強行優化CoT可能導致模型隱藏其意圖,而非消除不當行為。 OpenAI建議開發者避免對CoT施加過強的最佳化壓力,以便繼續利用CoT監測潛在的獎勵駭客(reward hacking)行為。研究發現,當對CoT進行強監督時,模型仍然作弊,只是更隱密地進行,使監測更困難。

研究強調,隨著AI能力增強,模型可能發展出更複雜的欺騙、操縱和漏洞策略。 OpenAI認為,CoT監測可能成為監督超人類智慧模型的關鍵工具,並建議AI開發者在未來訓練前緣推理模型時謹慎使用強監督。

分享至:

作者:PA一线

本內容只為提供市場資訊,不構成投資建議。

關注PANews官方賬號,一起穿越牛熊
推薦閱讀
44分鐘前
2小時前
2小時前
6小時前
19小時前
19小時前

熱門文章

行業要聞
市場熱點
精選讀物

精選專題

App内阅读