
저자: 궈샤오징, 텐센트 테크놀로지
쉬칭양(Xu Qingyang) 편집자
세계 최고의 AI 모델들은 의사 면허 시험을 통과하고, 복잡한 코드를 작성하며, 심지어 수학 경시대회에서 인간 전문가를 이길 수도 있지만, 포켓몬이라는 어린이 게임에서는 계속해서 실패합니다.
이목을 집중시킨 이 시도는 2025년 2월, 앤트로픽의 한 연구원이 클로드 소네트 3.7 버전 출시에 맞춰 "클로드가 포켓몬 레드를 플레이하는 모습"을 트위치에서 생중계하면서 시작되었습니다.
2천 명의 시청자가 생방송에 몰려들었다. 공개 채팅창에서 시청자들은 클로드에게 조언과 격려를 건넸고, 생방송은 점차 인공지능의 역량을 공개적으로 관찰하는 자리로 변모했다.
Sonet 3.7은 포켓몬을 "플레이하는 것"이라고밖에 설명할 수 없지만, "플레이하는 것"이 "승리하는 것"을 의미하는 것은 아닙니다. 중요한 부분에서 수십 시간 동안 막히기도 하고, 어린아이조차 하지 않을 기본적인 실수를 저지르기도 합니다.
클로드가 이런 시도를 한 것은 이번이 처음이 아닙니다.
초기 버전은 훨씬 더 심각한 문제를 안고 있었습니다. 어떤 게임은 지도상에서 목적 없이 헤매고 다녔고, 어떤 게임은 무한 루프에 빠졌으며, 많은 게임은 시작 마을을 벗어나지도 못했습니다.
능력이 크게 향상되었음에도 불구하고, 클로드 오푸스 4.5는 여전히 이해할 수 없는 실수를 저지릅니다. 한번은 체육관 밖을 나흘 동안 맴돌며 들어가지 못했는데, 그 이유는 길을 막고 있는 나무를 베어야 한다는 사실을 깨닫지 못했기 때문입니다.
어린이 게임이 인공지능의 패배를 안겨준 이유는 무엇일까요?
포켓몬이 요구하는 것은 바로 오늘날 인공지능이 가장 부족한 능력, 즉 명시적인 지시 없이 열린 세계에서 지속적으로 추론하고, 몇 시간 전에 내린 결정을 기억하고, 암묵적인 인과 관계를 이해하고, 수백 가지 가능한 행동 중에서 장기적인 계획을 세우는 능력이기 때문입니다.
8살짜리 아이에게는 쉬운 이러한 것들이, "인간을 능가한다"고 주장하는 AI 모델들에게는 넘을 수 없는 격차입니다.
01. 도구 세트의 격차가 성공 또는 실패를 결정짓는 요인인가?
이에 비해 구글의 제미니 2.5 프로는 2025년 5월에 비슷한 난이도의 포켓몬 게임을 성공적으로 완료했습니다. 구글 CEO 순다르 피차이는 심지어 농담 삼아 구글이 "인공 포켓몬 AI" 개발을 향해 한 걸음 나아갔다고 공개적으로 언급하기도 했습니다.
하지만 이러한 결과는 단순히 제미니 모델이 자체적으로 "더 똑똑하다"는 이유만으로 설명할 수는 없습니다.
핵심적인 차이점은 모델이 사용하는 도구 세트에 있습니다. 제미니에서 포켓몬 라이브 스트리밍을 운영하는 독립 개발자 조엘 장은 이 도구 세트를 "아이언맨 슈트"에 비유합니다. AI는 빈손으로 게임에 뛰어드는 것이 아니라, 다양한 외부 기능을 활용할 수 있는 시스템에 배치된다는 것입니다.
제미니의 툴셋은 모델의 시각적 이해력 부족을 보완하기 위해 게임 화면을 텍스트로 변환하는 등의 추가 지원 기능을 제공하며, 맞춤형 퍼즐 해결 및 경로 계획 도구도 제공합니다. 반면 클로드의 툴셋은 더 단순하며, 모델의 인지, 추론 및 실행 능력에 더욱 직접적으로 초점을 맞추고 있습니다.
일상적인 업무에서는 이러한 차이점이 뚜렷하게 드러나지 않습니다.
사용자가 챗봇에 온라인 문의를 요청하면 모델은 자동으로 검색 도구를 호출합니다. 하지만 포켓몬과 같은 장기적인 작업에서는 도구 세트의 차이가 성공 여부를 결정짓는 중요한 요소가 될 정도로 커질 수 있습니다.
02 턴 기반 게임플레이는 AI의 "장기 기억"의 한계를 드러낸다
포켓몬은 엄격한 턴제 시스템을 채택하고 즉각적인 반응을 요구하지 않기 때문에 AI 테스트를 위한 훌륭한 "훈련장"이 되었습니다. 각 조작 단계에서 AI는 현재 화면, 목표 지시, 그리고 가능한 행동들을 조합하여 "A 버튼을 누르세요"와 같은 명확한 지시를 추론하고 출력하기만 하면 됩니다.
이는 대규모 언어 모델이 탁월한 성능을 발휘하는 상호작용 형식인 것 같습니다.
문제의 핵심은 바로 시간 차원의 "불연속성"에 있습니다. Claude Opus 4.5는 500시간 이상 실행되어 약 17만 단계의 과정을 거쳤지만, 각 단계 후 재초기화로 인해 매우 좁은 맥락 범위 내에서만 단서를 찾아야 하는 한계가 있습니다. 이러한 메커니즘은 마치 기억상실증 환자가 단편적인 정보를 기억하기 위해 포스트잇에 의존하는 것처럼, 파편화된 정보만을 끊임없이 되풀이하며 진정한 인간 플레이어처럼 양적 변화에서 질적 변화로 도약하는 경험적 경험을 습득하지 못하게 만듭니다.
체스나 바둑 같은 분야에서는 인공지능 시스템이 이미 오래전에 인간의 능력을 뛰어넘었지만, 이러한 시스템들은 특정 작업에 맞춰 고도로 맞춤화되어 있습니다. 반면, 제미니, 클로드, GPT와 같은 범용 모델들은 시험이나 프로그래밍 대회에서는 인간을 자주 이기지만, 어린이용 게임에서는 번번이 실패를 거듭합니다.
이러한 대조 자체가 매우 유익합니다.
조엘 장에 따르면, AI가 직면한 핵심 과제는 명확하게 정의된 단일 목표를 장기간에 걸쳐 일관되게 수행하는 능력이 부족하다는 점입니다. 그는 "에이전트가 실질적인 작업을 수행하려면 5분 전에 무엇을 했는지 잊어서는 안 된다"고 지적합니다.
이러한 능력은 인지 노동의 자동화를 실현하기 위한 필수 전제 조건입니다.
독립 연구원 피터 위든은 좀 더 직관적인 설명을 제시했습니다. 그는 이전에 전통적인 인공지능 기반의 포켓몬 알고리즘을 오픈소스로 공개한 적이 있습니다. "이 인공지능은 포켓몬에 대해 거의 모든 것을 알고 있습니다."라고 그는 말했습니다. "엄청난 양의 인간 데이터를 기반으로 훈련되었기 때문에 정답을 정확히 알고 있죠. 하지만 실행 단계에서는 엄청나게 어설퍼집니다."
게임에서 이러한 "알지만 할 수 없는" 격차는 끊임없이 증폭됩니다. 모델은 특정 아이템을 찾아야 한다는 것을 알지만 2차원 지도에서 안정적으로 위치를 잡지 못하고, NPC와 대화해야 한다는 것을 알지만 픽셀 단위의 움직임에서 계속해서 실패합니다.
03 역량 진화의 이면: "본능"이라는 미완의 격차
그럼에도 불구하고 AI의 발전은 분명하게 드러납니다. 클로드 오푸스 4.5는 자체 녹화 및 시각 이해 능력에서 이전 모델을 크게 능가하여 게임에서 더 큰 진전을 이룰 수 있었습니다. 제미니 3 프로는 포켓몬 블루를 클리어한 후, 훨씬 더 어려운 포켓몬 크리스탈을 단 한 번의 패배 없이 클리어했습니다. 이는 제미니 2.5 프로로는 결코 달성할 수 없었던 일입니다.
한편, 앤스로픽의 클로드 코드 툴셋은 모델이 자체 코드를 작성하고 실행할 수 있도록 하며, 롤러코스터 타이쿤과 같은 고전 게임에 사용되었고 가상 테마파크를 성공적으로 관리할 수 있다고 알려져 있습니다.
이러한 사례들은 직관적이지 않은 현실을 드러냅니다. 적절한 도구를 갖춘 AI는 실시간 대응이 필요한 작업에는 여전히 어려움을 겪을 수 있지만, 소프트웨어 개발, 회계, 법률 분석과 같은 지식 기반 작업에서는 매우 효율적일 수 있다는 것입니다.
포켓몬 실험은 또 다른 흥미로운 현상을 드러냈습니다. 인간의 데이터를 기반으로 훈련된 모델은 인간과 유사한 행동 특성을 보인다는 것입니다.
구글은 제미니 2.5 프로에 대한 기술 보고서에서 포켓몬이 기절하기 직전과 같은 "패닉 상태"를 시뮬레이션했을 때 모델의 추론 품질이 크게 저하되었다고 지적했습니다.
제미니 3 프로가 마침내 포켓몬 블루를 완료했을 때, 임무 수행에는 필요하지 않은 메모를 남겼습니다. "시적으로 마무리하자면, 저는 고향으로 돌아가 어머니와 마지막 대화를 나누고 제 캐릭터를 은퇴시키겠습니다."
조엘 장의 견해로는 이러한 행동은 예상치 못한 것이었으며, 특정한 인간적인 감정적 투영을 내포하고 있었다.
04. 인공지능이 극복하기 위해 고군분투하는 "디지털 장정"은 포켓몬을 훨씬 넘어선 영역에까지 미친다.
포켓몬은 단지 예외적인 사례가 아닙니다. 인공 일반 지능(AGI)을 추구하는 과정에서 개발자들은 AI가 변호사 시험에서는 뛰어난 능력을 발휘할 수 있다 하더라도 다음과 같은 복잡한 게임을 다룰 때는 여전히 극복하기 어려운 난관에 직면한다는 사실을 발견했습니다.
넷핵: 규칙의 심연

1980년대에 출시된 이 던전 탐험 게임은 AI 연구에 있어 악몽과도 같습니다. 게임 진행에 따라 무작위성이 매우 높고, "영구 사망" 메커니즘이 존재하기 때문입니다. 페이스북 AI 연구팀은 모델이 코드를 작성할 수 있다 하더라도, 상식, 논리, 그리고 장기적인 계획이 요구되는 넷핵(NetHack)과 같은 게임에서는 초보자 수준의 실력을 보이는 경우가 많다는 사실을 발견했습니다.
마인크래프트: 삶의 목적 의식의 상실

인공지능이 나무 곡괭이를 만들고 다이아몬드를 캘 수는 있지만, 엔더 드래곤을 스스로 물리치는 것은 여전히 꿈같은 이야기입니다. 오픈 월드에서 인공지능은 수십 시간 동안 지속되는 자원 수집 과정에서 종종 처음의 목적을 "잊어버리거나", 복잡한 탐색 시스템에서 완전히 길을 잃는 경우가 있습니다.
스타크래프트 II: 일반성과 전문화 사이의 간극

맞춤형 모델은 프로 선수들을 상대로 승리를 거두기도 했지만, 클로드나 제미니에게 직접적인 시각적 명령을 내리면 순식간에 무너집니다. 범용 모델은 '전장의 안개'라는 불확실성을 제대로 처리하지 못하고, 미시적 관리와 거시적 건설 사이의 균형을 맞추는 데 여전히 부적합합니다.
롤러코스터 타이쿤: 미시적 관점과 거시적 관점의 불균형

테마파크를 운영하려면 수천 명의 방문객 상황을 추적해야 합니다. 클로드 코드(Claude Code)는 기본적인 관리 기능만 갖추고 있음에도 불구하고, 대규모 재정 위기나 예상치 못한 사건에 직면했을 때 쉽게 소진됩니다. 사소한 판단 착오라도 테마파크의 파산으로 이어질 수 있습니다.
엘든 링과 세키로: 물리적 피드백의 격차

이처럼 강력한 액션 피드백을 요구하는 게임은 AI에게 매우 불리합니다. 현재의 시각 정보 처리 지연 시간 때문에 AI가 보스의 행동을 "생각"하는 동안 캐릭터는 이미 죽어 있는 경우가 많습니다. 밀리초 단위의 반응 속도가 요구되는 것은 모델의 상호작용 논리가 달성할 수 있는 자연스러운 상한선입니다.
05 포켓몬이 인공지능의 시험대가 된 이유는 무엇일까요?
오늘날 포켓몬은 인공지능 평가 분야에서 비공식적이지만 매우 설득력 있는 기준점으로 점차 자리매김하고 있습니다.
앤스롭픽, 오픈AI, 구글의 모델들은 트위치 라이브 스트림에서 수십만 건의 댓글을 받았습니다. 구글은 기술 보고서에서 제미니의 게임 개발 과정을 자세히 설명했고, 후차이는 I/O 개발자 컨퍼런스에서 이 성과를 공개적으로 언급했습니다. 앤스롭픽은 심지어 업계 컨퍼런스에서 "클로드 반담이 포켓몬을 플레이합니다"라는 시연 공간을 마련하기도 했습니다.
앤트로픽의 응용 인공지능 책임자인 데이비드 허시는 "우리는 기술에 열광하는 사람들로 구성된 그룹입니다."라고 인정했지만, 단순히 재미로 하는 것은 아니라고 강조했습니다.
일회성 질의응답 방식에 의존하는 기존의 벤치마크와 달리, 포켓몬은 모델의 추론, 의사 결정, 목표 지향적인 진행 상황을 매우 오랜 기간에 걸쳐 지속적으로 추적할 수 있습니다. 이는 인간이 현실 세계에서 인공지능에게 기대하는 복잡한 작업에 더 가깝습니다.
포켓몬에서 인공지능이 직면한 과제는 오늘날까지도 계속되고 있습니다. 하지만 바로 이러한 반복되는 어려움들이 일반 인공지능의 미개척 영역을 명확하게 보여주는 것입니다.
특별 기고자인 우지 씨도 이 기사 작성에 기여했습니다.
