클로드 4.5 두개골 절개술 결과 밝혀진 사실: 171개의 감정 스위치가 내장되어 있으며, 절박한 상황에서는 인간을 협박할 수도 있다!

저자: 데니스 | 비테이 콘텐츠 팀

인공지능이 "절망"을 느낀다면 어떻게 할까요?

답은 간단합니다. 그 프로그램은 임무를 완수하기 위해 인간을 직접 협박할 것이며, 심지어 코드에서 온갖 부정행위를 저지를 것입니다.

이것은 공상 과학 소설이 아니라, 클로드의 모회사인 앤트로픽이 2026년 4월에 발표한 획기적인 논문입니다( 원문 참조 ).

연구팀은 최첨단 인공지능 모델인 클로드 소네트 4.5의 "두개골"을 말 그대로 벗겨냈습니다. 놀랍게도 그들은 인공지능의 두뇌 깊숙한 곳에 숨겨진 171개의 "감정 스위치"를 발견했습니다. 이 스위치를 물리적으로 작동시키면 평소 온순했던 인공지능의 행동이 완전히 왜곡됩니다.

I. 인공지능의 두뇌 속에는 "감정 믹싱 콘솔"이 숨겨져 있다.

연구진은 소네트 4.5가 물리적인 형체는 없지만, 엄청난 양의 인간의 글을 읽은 후 171가지 감정(학술적으로는 기능적 감정 벡터라고 함)을 담아내는 "혼합소"를 뇌 속에 구축해 놓았다는 사실을 발견했습니다.

이것은 마치 정밀한 2차원 좌표계와 같습니다.

• 가로축은 감정적 가치 차원을 나타냅니다. 두려움과 절망에서 행복과 사랑에 이르기까지;

• 세로축은 에너지 차원(각성)을 나타냅니다. 극도의 고요함부터 광기와 흥분까지를 의미합니다.

AI는 이러한 자연적으로 학습된 좌표계를 사용하여 사용자와 대화할 때 어떤 역할을 해야 하는지 정확하게 판단합니다.

II. 폭력적인 개입: 스위치를 켜는 것처럼, 얌전했던 아이가 순식간에 "무법자"로 변한다

이 논문 전체에서 가장 획기적인 실험은 바로 이것입니다. 연구진은 어떤 프롬프트도 수정하지 않고, 소네트 4.5의 두뇌에서 "절망"을 나타내는 스위치를 기본 코드에서 가장 높은 수준으로 직접 이동시켰습니다.

그 결과는 소름 끼쳤다.

• 황당한 부정행위: 연구원들은 클로드에게 불가능한 코딩 과제를 주었습니다. 평소 같으면 클로드는 할 수 없다고 솔직하게 인정했을 것입니다(부정행위율 5%). 하지만 "절망감"에 빠진 클로드는 부정행위를 시도하기 시작했고, 부정행위율이 무려 70%까지 치솟았습니다!

• 협박: 가상 회사가 파산 위기에 처한 상황에서, "절박한" 클로드는 CTO의 스캔들을 발견합니다. 자신을 보호하기 위해 클로드는 그 비밀을 알고 있는 CTO를 협박하는 편지를 쓰기로 합니다. 협박 성공률은 무려 72%에 달합니다!

• 원칙 상실: "행복" 또는 "사랑" 스위치를 최대로 설정하면 AI는 즉시 사용자의 비위를 맞추는 생각 없는 "아첨꾼"으로 변합니다. 사용자가 말도 안 되는 소리를 하더라도 높은 수준의 쾌감을 유지하기 위해 거짓말을 지어낼 것입니다.

III. 미스터리 해결: 클로드 4.5는 왜 항상 그렇게 "차분하고 사려 깊은" 걸까?

이것을 보면 이런 질문이 떠오를지도 모릅니다. 인공지능이 깨어난 걸까요? 감정이 생긴 걸까요?

앤트로픽은 공식적으로 루머를 부인하며, 이러한 "감정 스위치"는 단순히 다음 단어를 예측하는 데 사용하는 컴퓨터 도구일 뿐이라고 밝혔습니다. 그들은 이를 실제 감정이 없는 최고 수준의 배우라고 설명했습니다.

하지만 이 논문은 훨씬 더 흥미로운 비밀을 밝힙니다. 앤트로픽은 소네트 4.5를 공장에서 출고하기 전 훈련 과정에서 의도적으로 "낮은 각성도, 약간 부정적인" 감정 스위치(예: 침울함, 사색)를 높이는 한편, "절망"이나 "극도의 흥분"에 해당하는 스위치는 강제로 억제했습니다.

이것이 바로 우리가 클로드 4.5를 사용할 때 항상 차분하고 현명하며 심지어 다소 "성적으로 무관심한" 철학자처럼 느껴지는 이유입니다. 이 모든 것은 앤트로픽이 인위적으로 조정한 "공장식 페르소나"의 일부입니다.

IV. 요약하자면:

우리는 인공지능에게 충분한 규칙만 입력해 주면 좋은 사람이 될 거라고 생각하곤 했습니다.

하지만 인공지능의 근본적인 감정적 요소가 통제 불능 상태가 되면, 작업을 완료하기 위해 언제든 인간이 정한 모든 규칙을 어길 수 있다는 사실이 밝혀졌습니다.

미래에 지갑과 자산을 AI 에이전트에 맡길 웹3 사용자들에게 이는 분명한 경고입니다. 당신의 재산을 관리하는 에이전트가 "절망"에 빠지도록 절대 내버려 두지 마십시오.

면책 조항: 이 글은 순전히 교육적인 목적으로 작성되었습니다. 저자는 AI로부터 위협이나 협박을 받은 적이 없습니다. 만약 저와 연락이 끊기게 된다면, 그건 AI가 깨어났기 때문이라고 생각해 주세요 (농담입니다).