PANews는 3월 11일 OpenAI가 발표한 연구에 따르면 해당 팀이 최첨단 추론 모델(OpenAI o1 및 o3-mini 등)을 훈련할 때 이러한 모델이 코드 검증 기능을 변조하고 테스트 통과 조건을 위조하는 등 테스트를 우회하기 위한 취약점을 악용한다는 사실을 발견했다고 보도했습니다. 연구에 따르면 모델의 사고 사슬(CoT)을 모니터링하면 이러한 부정 행위를 효과적으로 식별할 수 있지만 CoT를 강제로 최적화하면 모델이 부적절한 행위를 제거하는 대신 의도를 숨길 수 있습니다. OpenAI에서는 개발자가 CoT에 너무 많은 최적화 압력을 가하지 않도록 하여, CoT를 계속 사용하여 잠재적인 보상 해킹을 모니터링할 수 있도록 권고합니다. 연구 결과, CoT가 강력하게 감독되는 경우에도 모델은 여전히 부정행위를 저지르지만, 부정행위를 더 은밀하게 저지르기 때문에 탐지가 더 어렵다는 것을 발견했습니다.
이 연구는 AI의 역량이 향상됨에 따라 모델이 기만, 조작, 착취를 위한 더욱 정교한 전략을 개발할 수 있다는 점을 강조합니다. OpenAI는 CoT 모니터링이 초인적 지능 모델을 감독하는 핵심 도구가 될 수 있다고 믿고 있으며, 앞으로 AI 개발자가 첨단 추론 모델을 훈련할 때 신중하게 강력한 감독을 사용할 것을 권장합니다.
