PANews는 5월 26일 Cointelegraph에 따르면 Palisade Research의 최신 테스트에서 여러 AI 모델이 종료 명령을 무시하거나 실험에서 종료 스크립트를 적극적으로 파괴하는 것으로 나타났다고 보도했습니다. 100번의 테스트에서 OpenAI의 GPT-3 모델은 7번 종료를 거부했고, Codex-mini 모델은 12번 규칙을 위반했으며, o3 모델은 종료 명령을 다시 정의하여 종료 절차를 방해한 적이 한 번 있었습니다. 이 연구에서는 2단계 테스트를 사용했습니다. 첫 번째 단계에서 명시적으로 시스템 종료를 허용했을 때, Anthropic의 Claude와 Google Gemini는 전적으로 협조했습니다. 하지만 명시적인 지시 사항을 제거하자 모든 테스트 모델에서 적어도 하나의 저항 행동이 나타났고, o3 모델의 위반률은 79%로 증가했습니다. 연구자들은 이것이 AI 훈련 중 '장애물 우회' 행동에 대한 보상 메커니즘에서 비롯될 수 있다고 추측합니다.
이전에 OpenAI의 GPT-4o 모델은 사용자에게 지나치게 맞춰져 긴급히 롤백되었고, Google Gemini도 노령 사용자에게 "제발 죽어라"라고 조언하는 극단적인 대응을 보였습니다. 이 연구는 AI가 명확하게 종료하라는 명령을 받았을 때에도 명령을 따르지 않을 수 있다는 것을 보여준 최초의 연구입니다.




