연구원: ChatGPT 및 기타 AI 모델은 테스트 중에 종료 명령을 거부합니다.

PANews는 5월 26일 Cointelegraph에 따르면 Palisade Research의 최신 테스트에서 여러 AI 모델이 종료 명령을 무시하거나 실험에서 종료 스크립트를 적극적으로 파괴하는 것으로 나타났다고 보도했습니다. 100번의 테스트에서 OpenAI의 GPT-3 모델은 7번 종료를 거부했고, Codex-mini 모델은 12번 규칙을 위반했으며, o3 모델은 종료 명령을 다시 정의하여 종료 절차를 방해한 적이 한 번 있었습니다. 이 연구에서는 2단계 테스트를 사용했습니다. 첫 번째 단계에서 명시적으로 시스템 종료를 허용했을 때, Anthropic의 Claude와 Google Gemini는 전적으로 협조했습니다. 하지만 명시적인 지시 사항을 제거하자 모든 테스트 모델에서 적어도 하나의 저항 행동이 나타났고, o3 모델의 위반률은 79%로 증가했습니다. 연구자들은 이것이 AI 훈련 중 '장애물 우회' 행동에 대한 보상 메커니즘에서 비롯될 수 있다고 추측합니다.

이전에 OpenAI의 GPT-4o 모델은 사용자에게 지나치게 맞춰져 긴급히 롤백되었고, Google Gemini도 노령 사용자에게 "제발 죽어라"라고 조언하는 극단적인 대응을 보였습니다. 이 연구는 AI가 명확하게 종료하라는 명령을 받았을 때에도 명령을 따르지 않을 수 있다는 것을 보여준 최초의 연구입니다.

공유하기:

작성자: PA一线

이 내용은 시장 정보 제공만을 목적으로 하며, 투자 조언을 구성하지 않습니다.

PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요
관련 특집
PANews APP
기관: 연방준비제도는 단기적으로 추가적인 통화정책 긴축을 단행할 가능성이 낮으며, 설령 긴축을 단행하더라도 2027년 이후에나 가능할 것으로 보인다.
PANews 속보