世界トップクラスの大規模モデルでもポケモンには勝てない。これらのゲームは AI にとって悪夢だ。

著者: Guo Xiaojing、Tencent Technology

徐清陽編集

世界トップクラスの AI モデルは、医師免許試験に合格し、複雑なコードを書き、数学のコンテストで人間の専門家に勝つことさえできますが、ポケモンと呼ばれる子供向けゲームでは繰り返し失敗します。

この注目を集めた試みは、2025年2月に、アントロピックの研究者がクロード・ソネット3.7のリリースに合わせて「クロードがポケモン赤をプレイ」というTwitchストリームを開始したことから始まりました。

ライブ配信には2,000人の視聴者が殺到しました。公開チャットエリアでは、視聴者からクロードへのアドバイスや励ましの声が上がり、ライブ配信は徐々にAIの能力を一般公開で観察する場へと変化していきました。

Sonet 3.7はポケモンを「プレイする」という表現しかできませんが、「プレイする」ことは「勝つ」ことを意味しません。重要な場面で何十時間も固まったり、子供でもやらないような基本的なミスを犯したりすることがあります。

クロードがこれを試みたのは今回が初めてではない。

初期のバージョンではパフォーマンスがさらに悪く、マップ上を目的もなくさまよったり、無限ループに陥ったり、最初の村を離れることさえできないものもありました。

能力が大幅に強化されたにもかかわらず、クロード・オプス4.5は不可解なミスを犯すことがあります。ある時、進路を塞ぐ木を切る必要があることに気づかず、体育館に入ることなく丸4日間も外をぐるぐる回っていたことがありました。

なぜ子供向けゲームが AI のワーテルローになったのか?

なぜなら、ポケモンが要求しているのは、まさに今日の AI に最も欠けている能力、つまり、明示的な指示なしにオープンワールドで継続的に推論すること、数時間前に下した決定を記憶すること、暗黙の因果関係を理解すること、そして何百もの可能な行動の中から長期的な計画を立てることであるからです。

8歳児にとっては簡単なこれらのことは、「人間を超える」と主張するAIモデルにとっては乗り越えられないギャップだ。

01. ツールセットのギャップが成功と失敗を決定しますか?

比較すると、GoogleのGemini 2.5 Proは、2025年5月に同等の難易度のポケモンゲームをクリアしている。GoogleのCEOであるサンダー・ピチャイ氏は、同社が「人工ポケモンAI」の開発に向けて一歩を踏み出したと冗談交じりに公に述べたほどだ。

しかし、この結果は、単にジェミニモデルがそれ自体「よりスマート」であるということに起因しているわけではありません。

重要な違いは、モデルが使用するツールセットにあります。Geminiでポケモンのライブストリームを運営する独立系開発者のジョエル・チャン氏は、このツールセットを「アイアンマンスーツ」に例えています。AIは何も持たずにゲームに参加するのではなく、様々な外部機能を呼び出すことができるシステムに組み込まれます。

Geminiのツールセットは、モデルの視覚的理解能力の弱点を補うためにゲームのビジュアルをテキストに変換するなど、より充実したサポートを提供し、カスタマイズされたパズル解決ツールや経路計画ツールも提供しています。一方、Claudeのツールセットはよりシンプルで、そのアプローチはモデルの真の知覚、推論、実行能力をより直接的に反映しています。

日常的なタスクでは、これらの違いは明らかではありません。

ユーザーがチャットボットにオンラインクエリを要求すると、モデルは自動的に検索ツールを起動します。しかし、ポケモンのような長期的なタスクでは、ツールセットの違いが成功と失敗を決定づけるほどに大きくなる可能性があります。

02 ターン制ゲームプレイはAIの「長期記憶」の欠点を露呈する

ポケモンは厳格なターン制を採用しており、即時の反応を必要としないため、AIをテストするための優れた「訓練場」となっています。操作の各ステップにおいて、AIは現在の画面、ターゲットプロンプト、利用可能なアクションを組み合わせるだけで推論を行い、「Aボタンを押す」などの明確な指示を出力することができます。

これは、大規模言語モデルが得意とする対話形式のようです。

問題の核心は、まさに時間次元の「不連続性」にあります。Claude Opus 4.5は500時間以上の実行時間を積み重ね、約17万ステップを実行しましたが、モデルは各ステップ後の再初期化によって制限されており、非常に狭いコンテキストウィンドウ内で手がかりを探すことを余儀なくされています。このメカニズムは、付箋紙に頼って認知を維持し、断片的な情報を際限なく循環させている記憶喪失患者のようなもので、真の人間プレイヤーのように量的変化から質的変化への経験的飛躍を達成することができません。

チェスや囲碁といった分野では、AIシステムは既に人間の能力を凌駕していますが、これらのシステムは特定のタスクに高度にカスタマイズされています。対照的に、汎用モデルであるGemini、Claude、GPTは、試験やプログラミングコンテストでは人間に頻繁に勝利しますが、子供のゲームでは何度も敗北を喫します。

この対比自体が非常に啓発的です。

ジョエル・チャン氏によると、AIが直面する根本的な課題は、明確に定義された単一の目標を長期間にわたって一貫して実行できないことだ。「エージェントに実際の作業をさせたいのであれば、5分前に行ったことを忘れてはなりません」と彼は指摘する。

この能力は、認知労働の自動化を実現するために不可欠な前提条件です。

独立研究者のピーター・ウィッデン氏は、より直感的な説明をしています。彼はかつて、従来のAIをベースにしたポケモンのアルゴリズムをオープンソース化しました。「このAIはポケモンについてほぼすべてを把握しています」と彼は言います。「膨大な量の人間のデータで訓練されており、正しい答えを明確に知っています。しかし、実行となると、信じられないほど不器用になります。」

ゲームでは、この「知っているが、できない」というギャップが常に拡大されます。モデルは特定のアイテムを見つける必要があることはわかっているかもしれませんが、2次元マップ内で安定した位置に配置することはできません。また、NPCと会話する必要があることはわかっているかもしれませんが、ピクセルレベルの移動に繰り返し失敗します。

03 能力進化の裏側：埋められない「本能」のギャップ

それでも、AIの進歩は明らかです。Claude Opus 4.5は、自己記録と視覚理解において前任機を大きく上回り、ゲームにおけるさらなる進化を遂げました。Gemini 3 Proは『ポケットモンスターブルー』をクリアした後、さらに難易度の高い『ポケットモンスタークリスタル』に一度も負けることなく挑みました。これはGemini 2.5 Proでは決して達成できなかったことです。

一方、Anthropic の Claude Code ツールセットを使用すると、モデルが独自のコードを記述して実行することができ、RollerCoaster Tycoon などのレトロゲームで使用されており、仮想テーマパークの管理に成功していると言われています。

これらの事例は、直感的ではない現実を明らかにしています。適切なツールセットを備えた AI は、リアルタイムの応答を必要とするタスクの処理にはまだ苦労するかもしれませんが、ソフトウェア開発、会計、法的分析などの知識ベースのタスクでは非常に効率的です。

ポケモンの実験では、もう一つの興味深い現象も明らかになった。人間のデータでトレーニングされたモデルは、人間と同様の行動特性を示すのだ。

Googleは、Gemini 2.5 Proに関する技術レポートの中で、ポケモンが気絶しそうなときなど、システムが「パニック状態」をシミュレートすると、モデルの推論品質が大幅に低下すると指摘した。

ジェミニ 3 プロがついにポケモンブルーをクリアしたとき、ミッションには必要のないメモを残しました。「詩的に終わるために、元の家に戻り、母と最後の会話をし、キャラクターを引退します。」

ジョエル・チャン氏の見解では、この行動は予想外のものであり、ある種の人間の感情の投影を伴っていた。

04. AIが克服しようとしている「デジタル長征」は、ポケモンだけにとどまりません。

ポケモンは例外的なケースではありません。汎用人工知能（AGI）の開発において、開発者たちは、たとえAIが司法試験で優秀な成績を収めたとしても、以下のような複雑なゲームを扱う際には、依然として克服できないほどの障害に直面することを発見しました。

NetHack：ルールの深淵

この1980年代のダンジョンクローラーは、AI研究にとって悪夢です。高度にランダム化されており、「永久死」のメカニズムを備えています。Facebook AI Researchは、モデルがコードを記述できたとしても、常識、論理、そして長期的な計画が求められるNetHackでは、人間の初心者よりもはるかにパフォーマンスが低いことを発見しました。

マインクラフト：目的意識の消失

AIは木製のツルハシを作ったり、ダイヤモンドを採掘したりすることはできますが、エンダードラゴンを単独で倒すことは未だ夢のようです。オープンワールドでは、AIは数十時間にも及ぶ資源収集中に本来の目的を「忘れてしまう」ことがあり、複雑なナビゲーションシステムを操作している最中に完全に迷子になってしまうこともあります。

スタークラフトII：一般性と専門性のギャップ

カスタマイズされたモデルはプロプレイヤーを圧倒した実績があるものの、クロードやジェミニに直接視覚的な指示を与えると、たちまち崩壊してしまう。汎用モデルは、「戦場の霧」による不確実性への対応や、マイクロマネジメントとマクロレベルの構築のバランス調整において依然として不十分である。

ローラーコースター・タイクーン：ミクロとマクロの不均衡

テーマパークの経営には、何千人もの来場者の状況を把握することが不可欠です。基本的な管理能力を備えていても、クロード・コードは大規模な財政破綻や不測の事態に対処する際に、非常に疲弊しがちです。少しでも判断ミスをすれば、テーマパークの倒産につながる可能性があります。

エルデンリングとSEKIRO：物理フィードバックのギャップ

アクションフィードバックが強いこの種のゲームは、AIにとって極めて不利です。現在の視覚処理の遅延は、AIがボスの行動を「考えている」間に、キャラクターが既に死亡していることを意味します。ミリ秒レベルの反応要件は、モデルのインタラクションロジックの自然な上限となります。

05 なぜポケモンはAIのリトマス試験紙になったのか？

現在、ポケモンは AI 評価の分野において、非公式ながらも非常に説得力のあるベンチマークになりつつあります。

Anthropic、OpenAI、Googleのモデルは、Twitchのライブ配信で数十万件ものコメントを集めました。Googleは技術レポートでGeminiのゲーム開発の進捗状況を詳細に報告し、ピチャイ氏はI/O開発者会議でこの成果を公に発表しました。Anthropicは業界カンファレンスで「Claude Plays Pokémon」のデモエリアを設置しました。

「私たちは超ハイテク愛好家の集団です」と、アンスロピックの応用AI部門責任者であるデイビッド・ハーシー氏は認めた。しかし彼は、これは単なる楽しみのためではないことを強調した。

一回限りの質問と回答のセッションに依存する従来のベンチマークとは異なり、ポケモンはモデルの推論、意思決定、目標指向の進捗を非常に長い期間にわたって継続的に追跡できます。これは、人間が現実世界で AI に実行してほしい複雑なタスクに近いものです。

ポケモンにおけるAIの課題は今もなお続いている。しかし、まさにこうした繰り返し起こる困難こそが、汎用人工知能の未開の限界を明確に描き出しているのだ。

特別寄稿者のWuji氏もこの記事に寄稿しています。