トークン不経済

作者：李刚、テンセント研究院

最近一部のメディアが、Microsoftが社内のClaude Codeライセンスを取り消したと報じた1。Claude CodeはAnthropicが提供するAIコーディングツールで、Microsoft社内に開放されてわずか6か月で最も人気のある開発支援ソフトウェアのひとつとなった。それに伴いトークン消費量が急増し、コストが急騰したが、成果物の品質は期待に届かなかった。さまざまな検討を経て、Microsoftはブレーキを踏み、社員を自社のCopilot CLIへと誘導した。

トークン消費と実際の成果が釣り合わない現象は、他のプラットフォーム企業でも広く見られる。Uberはわずか4か月で2026年通期のAIコーディングツール予算を使い果たし、Amazonでは一部の社員が無意味にトークンを消費し、Metaは社内向けのTokenmaxxingランキングをひっそりと取り下げ、成果を伴わないトークン消費を奨励しなくなった2。誰もがAIを受け入れているが、まだ正しい向き合い方を見つけられていない。企業はAIネイティブを強調しているが、（今のところ）収益は見えず、ただ伸び続ける請求書だけが目に入る。私はこれを「トークン不経済」と呼んでいる。

トークン不経済は、企業内部の管理が不十分であること、トークン使用に対するリターンが限定的であること、エージェントのアーキテクチャ設計自体（スキルの重複呼び出し、長距離タスクの内部摩擦、複数エージェントの協調コストなど）といった複数の要因が積み重なった結果である。今後これらの課題は、内部統制の高度化や技術面での消費最適化により徐々に緩和されていくだろう。しかし、トークンの純利益をプラスに転じさせるには、供給サイドからトークンコストを最適化するだけでなく、需要サイドから、幅広い産業シーンでトークン消費がいかにして実際の価値を生み出すかという難題にも取り組まなければならない。

良い品は安くない

過去2年間、主要な大規模モデルは急速に進化し、開発企業は自社の市場ポジショニングに応じて異なるプロダクトポートフォリオ戦略を採用してきた。それに伴い、API呼び出し価格（100万トークンあたりドル）も変化している。モデル性能は大幅に向上したが、良い品は安くはなく、同じ階層の製品でも呼び出し価格は静かに上昇しており、それが下流ユーザーのトークン消費コストを押し上げる重要な要因となっている。

（一）リーダーの階層戦略

Anthropicは、クローズドソースモデル企業の中でいち早くプログラミングがトークンの現金化の中核シーンであると見抜いた企業である。大規模モデルの主な有料ユーザーは開発者や企業の技術チームであり、彼らは価格に敏感ではなく、モデルのコーディング効率と品質をより重視する。プログラミングというビジネスシーンで先行すれば、トークンのプレミアムを得られる。そのためAnthropicは研究開発をプログラミングに集中させた。プログラミング能力の優位性を確立した後、2024年初頭にClaude 3シリーズを発表した際から、業界に先駆けてフラッグシップ・ミッドレンジ・軽量の立体的なプロダクトポートフォリオを採用し、同世代モデルで階層別価格を設定することで、ハイエンド市場と大衆市場の両方を同時に攻略した。

Opusシリーズはプログラミング業界のベンチマークと位置づけられ、$15/$75（入力/出力100万トークンあたり価格。以下同じ）という価格でハイエンド市場のアンカーを打った。
Sonnetシリーズ（$3/$15）は日常的なプログラミングやオフィスタスクに高いコストパフォーマンスを提供。
Haikuシリーズ（$1/$5）は軽量かつ迅速なインタラクションに向けて、手頃な価格を実現。

この細やかな階層区分により、Anthropicはすべての価格帯で利益抽出を最大化しつつ、市場シェアを守ることができた。この価格戦略は、技術リーダーであるAnthropicに、より多くの競争手段とより柔軟な操作余地をもたらした。

例えば、競合との性能差が急速に縮まっていることを察知した後、Opus4.5の発表とともに大幅な値下げを実施し、競合の市場スペースを圧迫した。

また、新世代モデルMythos Preview（$25/$125）の発表に伴い、Opusの上に新たな超ハイエンド層を設け、フラッグシップ製品の価格を引き上げ、それまでのハイエンド製品の継続的な値下げトレンドを逆転させた。続いて発表されたFable 5は、同じ基盤アーキテクチャを採用しながら、安全性を理由に一部機能を制限し、$10/$50（それでもOpusシリーズの2倍）という価格でより幅広い市場に投入した。

性能だけでなく、安全制約の厳しさによっても価格を決め、能力の階層化、リスクの階層化、価格の階層化という三次元の価格戦略を形成し、プレミアム市場を再び獲得した。このポジショニング戦略の効果は、2025年から2026年にかけて十分に実証された。Anthropicの年間経常収益（ARR）は、2024年末の約10億ドルから2026年5月の約450億ドルへと急増した3。

さらに重要なのは、この戦略がプロダクト力でリーダーとしての市場プレミアムを十分に守り、性能優位性によって価格競争に巻き込まれる罠から抜け出し、「良い品は安くない」という価値の循環を完成させたことである。

（二）追撃する側の価格の綱引き

これに対し、OpenAIとGoogleは、大規模モデルの商業化の初期段階において、Anthropicとは異なる多角化の道を選んだ。

OpenAIは2024年、Soraなどのマルチモーダルプロジェクトに多くのリソースを投入した。
GoogleはGeminiを中心に、検索、クラウドサービス、Workspaceなど複数の製品ラインにまたがるエコシステム戦略を構築した。

これらの投資は技術的なポートフォリオを拡大したものの、リソースが分散されたため、オフィスやプログラミングシーンでは相対的に目立った成果を上げられなかった。プログラミングこそがモデル能力を収益化する主戦場であると気づき、追撃に転じたときには、すでに先手を打たれていた。OpenAIの追撃は極めて断固たるものだった。

一方では、コーディングとAgent能力に再びフォーカスし、Soraなど巨額のコストがかかるプロジェクトを打ち切った。
他方では、Anthropicに追随して自社の階層型製品マトリックスを構築し、一対一で徹底マークするとともに、フラッグシップモデルと軽量モデルの価格差を意図的に拡大した。フラッグシップの高価格でリーディングモデルの看板を守り、軽量の低価格で市場シェアを奪う戦略である。

GPT 5.5の価格設定（$5/$30）はOpus 4.7/4.8（$5/$25）に並び、Claude Opusと同等のハイエンド価格のアンカーを確立した。その下位モデルであるGPT 5.4 mini（$0.75/$4.50）とnano（$0.20/$1.25）は、同クラスのClaude Haiku 4.5（$1.00/$5.00）を大幅に下回り、価格で市場を取る姿勢を示した。

GoogleはAndroidエコシステムの中核であり、すでに完全なビジネスのループを持っているため、扱うべき関係性はより複雑で、動きもより慎重である。Geminiは、Google Cloudのエンタープライズ顧客、Workspaceの生産性向上ユーザー、そして検索製品の消費者体験に同時に貢献する必要がある。プログラミングの重要性を認識しても、リソースのすべてをプログラミングとオフィスに集中させることはできず、やはりマルチモーダルかつ多角化の路線を進まねばならなかった。GoogleもAnthropicに追随し、1.5世代目のGeminiから製品をフラッグシップのProシリーズと軽量のFlashシリーズに分けたが、製品の進化スピードは相対的に遅く、価格設定もより低く抑えられている。

2024年初頭のフラッグシップモデルGemini 1.5 Proは、短いプロンプト（<128k）の場合、100万トークン出力価格がわずか5ドルであり、同期のGPT-4oの3分の1、Opus 3の15分の1だった。
2026年2月に発表されたGemini 3.1 Proの100万トークン出力価格は12ドルに引き上げられたが、同期のGPT 5.4（15ドル）やOpus 4.6/4.7（25ドル）を大幅に下回っている。

それだけでなく、Googleは逆張りともいえる動きを見せ、軽量製品ラインであるFlashの下に超軽量製品ラインFlash-Liteを追加し、呼び出し価格をオープンソースモデルと同水準まで押し下げた。これは典型的な量による価格補完策である。市場から待望されていたGemini 3.5 Proがなかなか正式発表されないことも、Googleが性能・安全性・エコシステム適応のバランスを取る中で直面している内部の綱引きを反映している。新世代フラッグシップモデルの価格戦略も、市場から高い注目を集めている。図1：フラッグシップモデルの価格推移トレンド ClaudeシリーズおよびGPT-4o/4.1/5.4の価格は公式価格ページに基づく。GPT-5.5シリーズ、Gemini 3.5 Flashの価格はOpenAI/Googleプラットフォームおよび第三者の集計による。GLMシリーズの価格は海外のZ.aiプラットフォームに基づき、具体的な価格は為替変動とダブルトラック価格設定の影響を受ける。作図：Codebuddy

（三）セカンダリ/軽量およびオープンソース/セミオープンソースモデル市場は、需要急増の中で静かに値上がりしている

フラッグシップモデルが性能を競い、セカンダリ/軽量モデルが価格を競うのは、市場競争における当然の正しい構図である。激しい市場競争に直面すれば、一般に市場価格の中心線は継続的に低下すると予想される。しかし、実際の状況はまったく逆で、セカンダリ/軽量～オープンソース/セミオープンソースモデルによって構成されるエコノミートークン市場の価格中心線は、過去2年のうちに静かに上昇し、トークン市場の価格の底を実際に押し上げたのは、まさにそうした上昇の中でだった。表面的には、これは殺伐としたレッドオーシャンに見える。

Sonnet、mini、Flashなどの低価格なセカンダリ/軽量モデルは、主要なクローズドソースモデルが大衆市場に向けて投入するお手頃パッケージであり、その主な狙いは市場シェアの獲得にある。

同時に、DeepSeek、Qwen、GLMなどのオープンソースまたはセミオープンソースモデルが急速に台頭し、概してフラッグシップ級のポジションを取りつつ、セカンダリ/軽量級の価格戦略を採用したことで、セカンダリ/軽量クローズドソースモデル市場に継続的な価格圧力をもたらしている。2024年末、DeepSeek V3は約$0.27/$1.10という価格で市場に参入し、同クラスのクローズドソースモデルを大きく下回った。その後に投入されたR1は、$0.55/$2.19という価格で推論強化能力を提供し、GPT-4.1 miniやClaude Haikuの価格設定余地を直接的に圧縮した。GLM-4 Plusはわずか$0.69/$0.35という価格でGPT-4レベルの能力に迫り、価格に敏感な開発者層に大きな魅力となっている。

例えば、2024年10月にリリースされたHaiku 3.5の入力/出力価格は$0.80/$4.00でした。
1年後、Haiku 4.5の価格は20%上昇し、$1.00/$5.00となりました。

ほぼ同じ時期に、GPT miniシリーズの価格はほぼ倍増し、4o miniの$0.15/$0.60から4.1 miniの$0.40/$1.60へと上昇しました。Gemini Flashシリーズも同様に、2.0 Flashの$0.10/$0.40という超低価格から、2.5 Flashでは$0.30/$2.50へと上昇し、100万トークンあたりの出力価格は6倍以上になりました。オープンソース／セミオープンソースモデル、例えばGLMシリーズでは、GLM-5の海外市場での価格がGLM-4.7に比べて約67%から100%上昇しました。智谱（Zhipu）自身の言葉を借りれば、今回の大幅な値上げは、中国国産モデルの技術力と市場競争力が急速に向上していることを示しています。

この現象が生じた根本的な原因は、エコノミー型トークンの消費量が爆発的に増加したことにあります。日常的なコーディングタスク、ドキュメント処理、自動化ワークフローのほとんどは、OpusやGPT-5.5レベルの能力を必要とせず、Sonnet、mini、Flashなどのモデル、あるいはオープンソース／セミオープンソースモデルによって担われています。AIコーディングアシスタント、エージェントワークフロー、エンタープライズAIアプリケーションの普及に伴い、これらのサブ／ライト級—オープンソース／セミオープンソースモデルの呼び出し量が急増し、フラッグシップモデルをはるかに上回っています。

一方で、これによりエコノミー型モデルの消費が急増し、キャッシュを燃やして低価格を維持するゲームは持続不可能になっています。
他方で、これはベンダーに値上げ余地を生み出し、価格が上昇しても需要は依然として急速に伸びています。

したがって、エコノミー型トークン市場においても、競争の論理は「どのトークンがより安いか」から「どのトークンのコストパフォーマンスが高いか」へと移行しています。Claude Sonnet／Haiku、GPT mini／nano、Gemini Flashはもちろん、DeepSeek、Qwen、GLMシリーズに至るまで、いずれも価格の中心値が上昇する傾向にあります。上記の分析からおおよそ見えてくるのは、トークン市場が現在、ハイエンドの価格構造が固定化し、ミッドレンジは量と価格がともに上昇し、エコノミー型はそれに追随して上昇するという、全体的な価格上昇プロセスを経験しているということです。

Anthropicはコーディング能力の優位性によって業界最強の価格決定力を確立し、OpenAIとGoogleは急速に追い上げているものの、短期的には価格を下げて数量を獲得する必要があります。一方で、オープンソース／セミオープンソースモデルは価格の下限を継続的に引き上げながら、市場成長の果実を享受し始めています。

この構造の変化は、AI産業全体の利益配分と競争環境に深い影響を与えるでしょう。消費が大幅に増加し、単価が上昇するトークン市場において、モデルベンダーの収入急増と表裏一体なのは、川下のトークン使用者のコスト上昇であり、それがエンドユーザーにとってのトークン消費の非経済性の根本的な原因です。図2：サブ／ライト級およびオープンソース／セミオープンソースモデルの価格動向ClaudeシリーズおよびGPT-4o/4.1/5.4の価格は公式価格ページに基づく。GPT-5.5シリーズ、Gemini 3.5 Flashの価格はOpenAI/Googleのプラットフォームおよび第三者集計による。GLMシリーズの価格は海外Z.aiプラットフォームに基づき、具体的な価格は為替変動と二重価格の影響を受ける。作図：Codebuddy

エージェントの見えざる消耗

トークン価格が高騰して財布に響くのはもちろんのこと、さらに痛ましいのは、かなりのトークンがエージェント（Agent）に作業させている最中にシステム的に浪費されてしまうことです。コンテキストトラップ（Context Trap）、トークナイザーのブラックボックス（Tokenizer Black Box）、スキル冗長性（Skill Redundancy）、そしてマルチエージェント協調におけるコミュニケーション税と長距離エントロピー増大（Communication Tax and Entropy Drift）──こうした構造的なロスが重なり合い、トークン非経済の内部技術的な根源を形作っています。

（一）コンテキストトラップ

モデル推論では各トークンと他のトークンとの関係を計算する必要があるため、コンテキストが長くなればなるほど計算負荷が重くなり、トークン消費量が増大します。同じ問題でも、前後の文脈なしにエージェントに投げれば、ほとんどトークンを消費しません。しかし、過去の会話履歴、ツールのログ、コードファイル、エラーメッセージ、複数ラウンドの議論まで含めて渡すと、入力トークンの消費量は桁違いに増える可能性があります。

そして、エージェントアーキテクチャは「長文の罠」を本質的に拡大します。エージェントは問題を分解し、ツール呼び出しを計画し、ファイルを読み、フィードバックを確認し、計画を修正し、再びツールを呼び出す──というサイクルを繰り返し、そのたびに過去の履歴を再びコンテキストに取り込む可能性があります。同じ情報が繰り返し読み込まれ、同じタスクに対して繰り返し課金されます。Salim et al.,（2026）によるChatDevフレームワークの分析では、コードレビュー（Code Review）段階で消費されるトークンが総消費量の平均39.5%を占め、すべての開発段階の中で最も高くなっています4。これは、トークンの4割近くが、エージェント間で既存の情報を繰り返し受け渡す過程に費やされ、真に新しいコンテンツを生成しているわけではないことを意味します。図3：ChatDevフレームワークにおける30タスクの各段階別トークン消費割合の分析 Salim, et al., (2026). Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering. Proceedings of the Mining Software Repositories Conference (MSR).

（二）トークナイザーのブラックボックス

トークナイザー（Tokenizer）は大規模モデルトレーニングの基盤であり、同じパラメータ数におけるモデルの情報密度の上限、有効コンテキスト長の下限、エッジケース（数字/コード/多言語）の信頼性を決定します。トークン化が適切であればあるほど、モデルのトレーニングと推論は効率的かつ安定的になります。オープンソース／セミオープンソースモデルのトークナイザーと重みは通常公開されていますが、クローズドソースモデルのトークナイザーは「ブラックボックス」であり、トークナイザーの更新に伴ってトークン密度が変化することがよくあります。

2026年4月、AnthropicはOpus 4.7のリリースと同時に、基盤となるトークナイザーを変更しました。Anthropicの公式ドキュメントによると、トークナイザーの調整は主にモデルトレーニングの実際のニーズを考慮し、性能向上のために、より細粒度のサブワード分割方式を採用したもので、副作用として同じ長さのテキストでトークン数が1.0倍から1.35倍に膨れ上がりました13。複数の独立したテスト機関の結果によると、実際の膨張倍率はさらに高くなっています。企業向けAIコスト管理プラットフォームFinoutが実際の企業プロンプトで加重計測したところ、技術文書と英文のコードが密集したファイルの平均膨張率は1.47倍（+47%）に達しました14。ClaudeCodeCampが7種類の実際のファイルタイプで行った総合テストの結果は平均1.325倍（+32.5%）15。開発者Simon WillisonがAPIで直接比較したところ、同一のシステムプロンプトが新しいトークナイザーの下で5,039トークンから7,335トークン（+46%）に膨張し、高解像度画像のトークン膨張は3.01倍（+201%）にも達しました16。

さらに遡ると、OpenAIはGPT-4oのリリース時にトークナイザーをcl100k_baseからo200k_baseにアップグレードし、語彙の規模をほぼ倍増させました。公式の説明によれば、これにより圧縮率を高め、多言語処理能力を強化することを目的としていました17。しかし、語彙の拡大それ自体は同じテキストのトークン数の削減を意味せず、実際には非英語コンテンツ（特に中国語や日本語などのCJK文字）では、新しいトークナイザーの分割粒度の変化により、トークン数が減るどころか増える可能性があります。より細かい粒度のトークン化がモデルのパフォーマンスを向上させるかどうかについては、現時点でモデルベンダーからの体系的な公の論証が不足しています。

AnthropicはOpus 4.7の変更ドキュメントで、新しいトークナイザーを「Breaking Changes」の項目に分類し、事実レベルの変更（より細粒度のサブワード分割）を記述したのみで、技術的な動機や性能上の利点について詳細な説明はしていません。コミュニティの研究者は、より細かいトークン化は理論上、モデルの語彙表現能力を豊かにし、特にコード理解や構造化データ処理（JSON、XMLなどの形式はOpus 4.7で最大の1.35倍の膨張上限に達しました）に有利であると指摘していますが、この潜在的な性能向上が50%近いコスト増加を正当化するのに十分かどうかは、未解決の問題です13。トークナイザーの更新頻度はモデルの更新よりも明らかに低いものの、トークンの最も基本的な課金基準に関わる問題であり、変更は技術的な詳細の中に隠されているため、一般ユーザーが気づくことはほとんど不可能です。クローズドソースモデルはトークナイザーについてなおさら口を閉ざしており、それがトークン非経済を深刻化させる一因となる可能性があります。（

三）スキルの無意味な呼び出し

スキル（Skill）は、エージェントアーキテクチャをより専門的にするための重要なツールの1つです。スキルを単なる長めのMarkdownと見なす人もいれば、各種参考文献や操作手順が入ったフォルダと捉える人もおり、また、構造化された非常に長いプロンプトと理解する人もいます。実際の推論やエージェントタスクでは、多くのスキルが長すぎたり複雑すぎたりして、トークン消費を増大させています。Gao et al.,（2026）は55,315件の公開スキルを対象とした大規模実証研究で、スキルの無効な読み込みがどのようにトークンを浪費するかを明らかにしました5。ルーティングレベル（つまりエージェントが特定のスキルを呼び出すかどうかを決定する段階）では、実に26.4%のスキルにルーティング記述がまったくなく、目次のないツールマニュアルのように、エージェントによる無効な読み込みの確率を大幅に高めています。本文レベルでは、60%を超えるスキルの内容が、直接実行可能な操作ルールではなく、背景説明やサンプルテキストであり、スキル使用時のトークンの大部分が「説明書の読み込み」に費やされ、「実際の作業」に使われていません。さらに深刻なのは、一部のスキルがファイルを密集的に参照し、1回の呼び出しで数万から十数万トークンが注入される一方、そのうち現在のタスクに関連するのはごく一部である可能性があることです。Han et al.,（2026）のSWE-Skills-Benchベンチマークは、スキルの有用性の限界をさらに裏付けました6。この研究は実際のGitHubプロジェクトで49件の公開ソフトウェアエンジニアリングスキルをテストし、その結果、39件（79.6%）のスキルではパス率にまったく向上が見られず（スキルあり・なしのパス率が同じ）、49件全てのスキルによる平均的な効果の増分はわずか1.2ポイントに過ぎませんでした。しかしトークンコストは最大451%増加しました。コーディングに特定領域の専門知識をもたらす7つのスキル（金融リスク管理の数式、クラウドネイティブトラフィック管理、GitLab CIパターンなど）だけが意味のあるパフォーマンス向上（最大30ポイントの向上）をもたらしました。一方、3つのスキルではバージョン競合によってパフォーマンスが低下しました（最大10ポイント低下）。これは、スキルの有用性がシナリオへの適合度に大きく依存し、盲目的な呼び出しはコストを不必要に増やすだけであることを示しています。（

四）マルチエージェントの無駄話と長距離タスクの迷走

マルチエージェントは現在好まれている働き方であり、ユーザーは一人でAIによって構成されたチームを率い、コードを書く者、レビューする者、テストする者、修正する者と、複数のエージェントがそれぞれの役割を果たし、互いに監督し合うことで、多くの場合、確かに出力の質を向上させている。しかし、機械同士でも無駄な会議が発生し、会話の中で既に議論されたタスクの背景、以前の結論、定型的な決まり文句が繰り返され、そのたびにトークンが消費される。Salim et al.,（2026）はこれをマルチエージェントシステムのコミュニケーション税（communication tax）4 と呼んでいる。さらに、複雑な長距離タスク（long task）をマルチエージェントシステムに委ねることが、プログラミングやオフィスワークの主流になりつつあり、飲食や移動など日常生活のシーンにも徐々に拡大している。長距離タスクにはもともと目標から逸脱しやすいという問題がある。このようなタスクのコンテキストには、ツールの出力、エラー、草稿、ログが詰め込まれ、モデルの推論が徐々に目標から逸れてしまいがちだ。修正のために、開発者は要約、記憶、チェック、ロールバックなどの仕組みを追加せざるを得ず、それがさらなるトークン消費をもたらす。Luo et al.,（2026）はTabTracerの研究において、従来のチェーン推論は経路が長すぎるとループ状態に陥りやすく、敵対的注入によって意図的にこのループを引き起こし、エージェントが誤った経路上でトークンを繰り返し消費していることに気づかないままでいる可能性があると観察している7。この安定維持に必要な追加コストは一般にエントロピー税（entropy tax）と呼ばれ、システムが複雑になるほど、エージェントが自由になるほど、監督が必要になり、タスクが長くなるほど、コンテキストが大きくなり、エントロピー税の増加は速まる。一見効率的に見えるエージェントチームでも、トークン請求の半分以上が内部調整と自己修正に費やされている可能性がある。コンテキストの罠、トークナイザーのブラックボックス、スキルの無意味な呼び出し、無駄話文学、そして長距離タスクの迷走。これらの要因が重なり合うことで、トークン消費に与える影響は単純な加算ではなく、乗算的な指数関数的増大となる。

さらに注目すべきは、これらの技術的損失がユーザーごとに非対称な影響を及ぼす点である。技術的バックグラウンドを持つ開発者は、システムプロンプト（System Prompt）の調整、スキル内容のトリミング、コンテキストウィンドウ管理戦略の設定などによって、ある程度これらの問題を緩和できるが、技術的バックグラウンドを持たない一般の企業ユーザーにとっては、エージェント内部のトークン流通メカニズムを理解することも、その行動パターンに効果的に介入することもできず、請求書の数字が増え続けるのを見ているだけで、そのお金が一体どこに、なぜそんなにかかったのかがわからない。

その意味で、トークン不経済は単なる技術効率の問題にとどまらず、技術的平等化の問題でもある。AIツールの利用ハードルは、コードが書けるかどうかから、エージェントアーキテクチャのコストダイナミクスを理解できるかどうかへと変わった。現実には、ほとんどのエージェントのユーザーは関連する技術的バックグラウンドを持たず、構造的な劣位に置かれている。

真のニーズを探す

価格設定や無効消費といった供給側のさまざまな問題よりも、アプリケーション側の限界こそがトークン不経済を引き起こすより重要な原因である。モデルの性能は過去2年間で目覚ましい進歩を遂げたが、トークンの汎用性は依然としてかなり限られている。現在のトークンの使用は、プログラミング支援、文書処理、データ分析など、デジタル化の度合いが高いシーンにほぼ限定されている。

これらの優位な分野を離れると、大規模モデルの性能はアプリケーションシーンのデジタル化水準の低下とともに急激に減衰する。飲食、家事代行、小売端末、現場修理などのデジタル化の度合いが極めて低いオフラインのサービス業態に至っては、トークンが単独で完了できるタスクは、すでに高度にデジタル化されたプロセス管理部分に限られ、現場のオペレーションに実質的に関与することは難しい。これはAIがこれらの分野に永遠に入れないという意味ではなく、現在の純粋な言語モデルパラダイム（token-in, token-out）と現実世界との間に構造的なギャップが存在するということだ。

この問題はモバイルインターネット時代から存在しており、デジタル技術が第一次・第二次産業を根本的に変革できなかった根本原因である。人工知能の発展は、このギャップを越える新たな可能性を提供している。科学のためのAI（AI for Science）、ワールドモデル（World Model）、ロボットシステムなどの基礎研究が進展している。

過去2年間でノーベル物理学賞と化学賞がAI科学者に授与され、Figure、Tesla Optimus、宇樹などのヒューマノイドロボットが顕著な進歩を遂げた。しかし、これらの最先端分野は現在もまだ実験室段階にあり、画期的なアプリケーション層でのブレイクスルーが達成されるまでは、トークンは高度にデジタル化されたシーンの中に閉じ込められ続けるだろう。

（一）プログラミングは汎用的な特例

プログラミングは現在、大規模言語モデルが最も優れたパフォーマンスを示す応用シーンだが、このシーンは普遍的な代表性を持つわけではなく、より正確には汎用性を備えた特例と言える。汎用性とは、プログラミングが出力するのはエージェントの共通言語であり、デジタル化の基盤が整っている（プロセスとファイルがすでにデジタル化され、アルゴリズムによって駆動されている）シーンにおいて、さまざまなタイプのエージェントを直接駆動して多様なタスクの遂行を支援できる点にある。

この観点から、Anthropicがプログラミングに特化したClaude Codeや、OpenAIのGPT Codexが現在市場で最も人気のあるエージェント製品となっているのは偶然ではない。特例とは、プログラミングというシーンがモデルのポストトレーニング段階において極めて大きな優位性を持つことを指す。第一に、確定的な信号フィードバックである。モデルが生成したコードを実行すれば、コンパイラ、インタプリタ、単体テストが即座に正確で構造化された、曖昧さのない正誤判断を返す。第二に、そうした自動信号フィードバックを基に、効率的に自動化されたポストトレーニングのクローズドループを形成でき、フィードバックを滞りなく強化学習ループに組み込むことで、エージェントはデジタルサンドボックス内で高速に生成、エラーを出し、自己修正を行う。このような自律的なトレーニング環境は他のシーンではほとんど見られず、基本的に形成不可能である。

ひとたびプログラミングを離れれば、モデルのトレーニング効率は大幅に低下する。デジタル化の度合いが比較的低く、自動化されたポストトレーニングのクローズドループを形成できない従来のビジネス世界、例えば経営判断、法律交渉、臨床医療、サプライチェーン物流においては、データ収集と結果検証のコストがあらゆるトークン経済を食いつぶしてしまう。低コストなフィードバック信号を得られないエージェントは、指数関数的な自己進化を遂げることができず、プログラミングでの大成功を繰り返すことは難しい。2023年2月、A&O Shearman（旧Allen & Overy）はいち早く法律分野の垂直型大規模モデル企業Harvey AIとの独占的な戦略提携を結び、同社が開発したAI法律アシスタントを世界43のオフィスに展開した18。

数か月にわたる試用期間中、A&O Shearmanの全世界3,500名以上の弁護士はHarveyに対して約40,000回のクエリを提出し、契約書作成、法令検索、デューデリジェンスなど複数の法律ワークフローをカバーし、確かに業務効率を向上させた19。その一方で、A&O Shearmanは公式プレスリリースにおいて、Harvey AIが生成したすべてのアウトプットは、必ず実務弁護士による慎重な審査を経てから使用されると明確に述べている18。AIは弁護士の専門的判断を真に代替するものではなく、元のワークフローにAIの一次審査という工程を一つ追加したに過ぎない。

シニアパートナーがAIにより注釈の付与された契約書草案を受け取った際、それを見直すために投入される時間は、元の契約書を一から精査する場合とほぼ同等であった。もちろん、人間による審査の結果フィードバックは後続のモデルトレーニングにとって価値の高いデータではあるが、そのフィードバックのコストは明らかにプログラミングのような自動クローズドループよりもはるかに高い。将来的にフィードバックデータがある臨界点に達すれば、エージェントの現実シーンでのパフォーマンスが大幅に向上し、専門家の水準に迫るか超える可能性を排除できない。しかし、プログラミングと比較すると、その臨界点の到来にはまだ相当な道のりがある。

（二）物理世界への困難な一歩

法律業務の主な内容は依然として大量のテキスト処理であり、デジタル化水準が高く、高度にデジタル化されることが確実なシーンである。業務タスクの中でデジタル化できる部分、デジタル世界から直接制御・操作できる要素が減少するにつれて、エージェントが完了できるタスクの割合も低下する。現実世界の設備のほとんどがソフトウェアによって駆動されているとはいえ、エージェントがコードを書くだけで物理世界を制御できると単純に考えることには、依然として大きな障壁がある。

ヒューマノイドロボット（humanoid robot）の発展を例にとると、すでにマラソン競技では人間の最高記録を超えたものの、ヒューマノイドロボットはほとんどの現実世界のタスクで依然として格闘している。清掃、運搬、ドア開け、雑然としたシーンの横断など、人間にとってはたやすい動作が、ロボットにとっては大きな挑戦なのである。

だからMoravec（1988）は「コンピュータに知能検査やチェッカーで大人並みの成績を出させることは比較的容易だが、一歳児の知覚と運動能力を持たせることは極めて困難、あるいは不可能である」（It is comparatively easy to make computers exhibit adult-level performance on intelligence tests or playing checkers, and difficult or impossible to give them the skills of a one-year-old when it comes to perception and mobility）と述べており、約四十年後の今日、この言葉の重みはますます増している23 。

李飞飞は長文『From Words to Worlds』の中で、空間知能と身体化知能を、成熟により長い時間を要する中期的目標8として位置づけている。その理由は、現実世界にはコンパイラが存在せず、物理世界は反復を受け入れず、検証のみを受け入れ、検証のコストは常に生成のコストよりも高いからだ。かつて大きな期待を寄せられたシミュレーション技術は一定の効果を上げてはいるものの、プログラミングの場面におけるエージェントの適応と同様の効能を実現するには、まだ長い道のりがある。シミュレーション技術は、物理世界にコンパイラがないという難題を回避するために、デジタルツインと物理エンジンで仮想的な検証空間を構築するものだ。しかし、身体化知能の発展は依然としてシミュレーションと現実のギャップ（Sim-to-Real Gap）に直面しており、簡略化されたサンドボックスの中で膨大なトークンによって学習された最適制御軌跡は、いったん現実世界の摩擦や材料疲労、環境ノイズに遭遇すると、たちまち極めて脆弱になる。Aljalbout et al.,（2025）は、シミュレーションと現実のギャップは単一の問題ではなく、動力学の差異、知覚の歪み、アクチュエータの非線形性、システム設計の欠陥など複数のサブギャップが重なって生じており、完全なシミュレータは計算上実現不可能だとしている20。

此外、シミュレーション訓練戦略は、モデリングにおける不正確だが確定的な境界条件を利用して、過大な性能を上げることが多い。しかし、現実の環境に展開すると、これらの戦略はしばしば信頼できず、リスクさえもたらす。例えば、OpenAIのDactylロボットハンドプロジェクトは、64枚のNVIDIA V100 GPUと920台の32コアCPUサーバーを使い、シミュレーション内で累計13,000年分の労働に相当する訓練経験を積み、マニピュレーターによる立方体操作で極めて高い成功率を達成した21。しかし、現実世界で事前定義されていない材質、温度、摩耗の変化に直面すると、器用な手の頑健性は急速に低下した。

2021年、OpenAIはロボットチーム全体を解散した。共同創設者のWojciech Zarembaはこの決定について、リソースはより成果を上げやすい分野に移す必要があると説明した22。公式はSim-to-Realギャップを主因とはしなかったが、業界では一般に、シミュレーション訓練の高額な計算コストと現実展開の不確実性との矛盾が、OpenAIがロボット分野から撤退した重要な要因の一つと考えられている。

現実の物理世界でモデルの性能を検証するには、時間と資本コストが仮想世界より数桁高く、こうした実テストは代替不可能である。この非対称な検証コストは、プログラミング領域の特殊性を一つの側面から示している。アルゴリズムは万能ではなく、トークンもそうではない。もしトークンの有効な応用範囲がプログラミングや少数のデジタル領域に長期間限定され、デジタル世界から物理世界へのギャップを超えられなければ、AIの産業化と産業のAI化の持続可能性には大きな疑問符がつく。

トークン経済の未来は、トークンの有効射程をデジタルの孤島からより広大な現実世界へと拡張できるかどうかにかかっている。物理世界での真の需要が爆発するまで、トークン不経済は長期間続く可能性がある。

トークン不経済の波及リスク

トークン不経済はAI産業チェーン全体で均等に分布しているわけではない。上流のインフラ・ハードウェア企業は現在の固定資産投資ブームで莫大な利益を上げている。中流のモデル企業は依然として製品性能を競い合い、高額な資本支出がキャッシュフローを圧迫している。下流のアプリケーション効果は人により、シーンにより異なり、多くの企業はまだ様子見を続けている。産業チェーンのリスクは中流に集中しつつあり、中流のモデル企業は資本市場で循環融資の小さなサークルを次々と構築している。積み上がり続けるトークン不経済リスクが顕在化すれば、必ず金融市場を巻き込み、ひいては民生の安定にも影響を及ぼす。

（一）産業チェーンリスクの不均衡な分布

トークン・エージェントブームは、上流のデータセンター、ネットワーク、チップ製造、そして電力・エネルギーインフラへ巨額の資金を呼び込んでいる。TSMCの2026年の設備投資額は520～560億ドルに達すると予想され9、Microsoft、Alphabet、Amazon、Metaの2025〜2026年のAIインフラ投資の合計は3,000億ドルを大きく超え、7,000億ドルの水準に迫る勢いで増加している10。中流の大規模モデル企業は、今回のAI投資ブームの原動力であり、AIに関する楽観的な見通しの拠り所、「村全体の希望」である。しかし主要企業は、収益が爆発的に伸びているにもかかわらず、依然として大幅な赤字を計上しており、計算能力の調達コストは高止まりしている。OpenAIは2030年前後になってようやく黒字化する見込みだ11。一方で、下流で実際にエージェントを稼働させ、トークンを消費している企業ユーザーは、すでにコスト抑制に動き始めている。何しろ妥当なリターンがまだ見えていないのだから、トークンに予算上限を設定し、コストを帰属させ、利用許諾を引き締めるのは、当然の管理行動である。我々は、AI産業チェーンの上流と下流を代表する上場企業について、過去2年間のフリーキャッシュフロー（FCF＝営業キャッシュフロー－資本支出）の変化と直近1年間の純利益率を比較した（図4）。

2025年、産業チェーン上流に位置するTSMC（44.5%）とNVIDIA（55.6%）は、純利益率が高いだけでなく、フリーキャッシュフローもそれぞれ14.5%増、58.8%増と高い伸びを示した。これに対し、産業チェーン下流に位置するAmazon、Microsoft、Metaは、純利益率が例年並みかむしろ改善しているにもかかわらず、フリーキャッシュフローがそれぞれ76.6%、14.8%、3.4%減少した。主に資本支出の大幅な増加の影響である。

トークン金山はまだ見つかっておらず、金を掘る者は依然として資金を投じているが、スコップを売る者はすでに莫大な利益を得ている。こうした状況は歴史の中で何度も繰り返されてきた。産業革命の初期には、新技術の台頭に伴い、需要はまず投資サイドと産業の上流で爆発し、中流の巨額の資本支出が上流の巨大利潤に変わる。一方で、下流の最終消費はまだ緒に就いたばかりで、中流企業の生産能力拡大を支えるには不十分である。リスクは産業中流に集まり、資本と生産能力が実際の支払需要より先に走っている。

短期的には、バリュエーションの調整、遊休生産能力、一部プレイヤーの退出はほぼ不可避である。
長期的には、基盤となる需要が最終的に形になれば、先行的に建設されたデータセンター、チップ、ネットワークは依然として活用され、経済成長を支える生産力基盤となる。

社会と規制当局にとっては、産業チェーンのリスクが金融市場を通じて外部に波及し、リスクの波及による大きな経済変動を防ぐ必要がある。図4：AI産業チェーンにおける上流・下流のフリーキャッシュフロー伸び率と純利益率の比較（FY2025～2026）データ出典：各社年次報告書、10-K SEC届出書。作図：Codebuddy

（二）循環融資とシャドー・クレジット

産業チェーンのリスクは中流のモデル企業に集中しており、一部の中流モデル企業と上流ハードウェア企業は循環融資（circular financing）を行っており、それが技術主導の実成長なのか、資本の自己循環に支えられたバリュエーションゲームなのか、見極めがつかなくなっている。例えば、OpenAIとNVIDIA、Oracleが構成する「AI永久機関」では、まずOpenAIがNVIDIAから戦略投資を受け（当初は1,000億ドルの投資を約束していたが、後にOpenAIの新ラウンドの参加者へと変更され、投資額も大幅に縮小）、次にOpenAIが調達した資金でOracleからクラウドサービスを購入する（両社は5年間総額約3,000億ドルの計算能力購入契約を締結）。最後にOracleがOpenAIの支払い承諾を信用補完に使い、債券発行で調達した資金でNVIDIAからGPUを購入して計算能力センターを建設し、資金循環を完成させる。

どのステップも合理的なビジネスロジックがあるように見えるが、どのステップも過度に「先取り」しすぎていると感じさせる。

OpenAIの計算能力調達枠組みは合計で1兆ドルを突破しており、現在の年換算収益330億ドル（2026年5月時点のARR）とは釣り合わず、完全に将来の高成長を見込んだものだ26。

ひとたび下流のトークン最終消費がモデル企業の収入を指数関数的に成長させられなければ、「約束」は「バブル」へと変わる。そして、トークン最終消費の見通しは決して楽観的ではない。Bain & Companyの試算によれば、2030年までに新たに増える200GWの計算能力を吸収するには、最終消費側が年間約2兆ドルの新たな収益を生み出す必要がある。しかし、AIによるコスト削減分を考慮しても、依然として約8,000億ドルの不足が生じる12。こうした循環融資の構図は、世紀の変わり目のインターネットバブル期にも見られたが、今日のバリュエーションバブルの半分は不透明なプライベートクレジット（private credit）市場に潜んでおり、潜在的リスクを正確に把握することが一層難しくなっている。

FRBの利上げがスタートアップやレバレッジド・バイアウトなどの高リスク債券市場の金利を押し上げ、銀行はバーゼル規制の下でこの市場から撤退せざるを得なくなり、プライベートエクイティ機関に余地を残し、結果として約3兆ドル規模の米国プライベートクレジット市場が生まれた。Apollo、Ares、Blue Owl、KKR、Blackstoneなどの資産運用会社は、BDC（事業開発会社）や直接融資を用いて、データセンター建設に20～30年物のレバレッジド融資を提供している。これらの融資は多くの場合、個別交渉で成立し、モデル評価（mark-to-model）で価格付けされており、期間のミスマッチ（LLMのように月単位で進化する技術に将来30年分のキャッシュフローを当てはめること）が生じる可能性がある。また、モデル企業が資金不足であるため、現物出資利息（PIK、利息が直接元本に組み入れられる）となることが多く、リスクが積み重なっても察知されにくい。国際決済銀行のある報告書は、現在、株式の一次・二次市場ではAI産業チェーンの上振れ余地が十分に織り込まれているが、債務市場では下振れリスクがまだ織り込まれていないと指摘している25。

下流需要の伸びが鈍く、収益が予想を下回れば、循環融資のバリュエーションロジックは崩壊し（株式の圧縮）、プライベートクレジット内のモデルは再評価を余儀なくされ（貸倒評価減）、バブル崩壊と株債同時急落のリスクが急増する。

（三）資源飢餓が他需要を圧迫

トークン消費によって引き起こされる計算能力の拡大に伴い、計算能力センターは水や電力などの資源に対して極度の需要を示し、短期間で大きな供給不足を生み出し、立地地域の民生用水・電力にしわ寄せを及ぼすことが多い。米国バージニア州北部のデータセンター通り（Data Center Alley）には、世界で最も集積度の高いデータセンター群が集中し、世界のインターネットトラフィックの約70％を処理している。地域の電力網の容量をテクノロジー企業が長期卸売契約によって先行して押さえているため、住民や従来型商業向けのエネルギー割当が大幅に圧縮されている。

バージニア州議会合同監査審査委員会（JLARC）が2024年12月に公表した報告書によると、データセンターの消費電力は既にバージニア州最大の原子力発電所の発電量の2倍を超えており、ラウドン郡（Loudoun County）で計画中または建設中のデータセンターのエネルギー需要を満たすだけでも、2030年までに送電網へ原子力発電所数基分に相当する発電能力を追加する必要があるという。データセンターによる高圧送電線とクリーンエネルギーへの猛烈な争奪戦は、地元の電力会社に巨額を投じた送電網の増強を余儀なくさせている。Dominion Energyは今後15年間で数百億ドルを送電網の拡張に投資する計画だ。この巨額のインフラ整備コストは、最終的に送電網維持費や容量料金などの形で住民の月々の電気代に転嫁される。Dominionのサービスエリアにおける容量オークション価格は29ドル/MW・日から444ドル/MW・日へと1400％以上急騰し、送電網の発電・送電容量の深刻な逼迫を直接反映している24。ピードモント環境評議会（PEC）がDominion Energyの統合資源計画（IRP）を分析したところ、同計画の対象期間中に一般家庭の電気料金が倍増する可能性が示された。計算能力の拡大が日常需要を圧迫するクラウディングアウト効果はバージニアにとどまらず、アイルランドのダブリン、シンガポールのジュロン、中国の貴州省など、世界の主要コンピューティング拠点の多くでも同様の矛盾が経験されてきた。そうした意味で、トークンの不経済はデジタル世界にのみ存在するのではなく、現実の生活においても長く暗い影を落としている。

Token価値方程式を探る

Tokenはインテリジェント時代の最も基本的な生産要素の一つである。土地、データ、資本、人的資源など他のあらゆる生産要素と同様に、資源のミスマッチや浪費が存在する限り、いわゆる「不経済」が必ず生じる。その意味で、Token不経済はAI産業チェーンが爆発的に成長する初期段階に限った一時的な現象ではなく、Token経済と並存し、インテリジェント経済の発展の全過程を貫くものである。

目下の具体的な状況では、Token経済はまだ完全には姿を現しておらず、そのためToken不経済が相対的に目立っている。常に存在するからといって放任してよいわけではなく、供給側と需要側の両面から手を打つことで、Token不経済を低減し、Token経済を強化し、技術の発展を真の経済的価値へと転換することができる。

供給側では、精緻な技術的手法を通じて単位Tokenあたりのコストを引き下げ、無駄や漏れを塞ぎ、リスクの拡散を防ぐことができる。
需要側では、新たな応用シーンを絶えず開拓することで、Tokenに使った分だけの価値を生み出させることができる。

供給側のコスト低下曲線と需要側の価値上昇曲線が交差するとき、Token経済と不経済が互いに相殺された後の純便益はマイナスからプラスへと転換できる。

（一）技術面における精緻化の変革

コンテキストキャッシュとセマンティック圧縮。コンテキストキャッシュ（Context Caching）は既にモデル事業者の一般的な手法となっており、マルチエージェントのパイプラインが頻繁に履歴キャッシュにヒットする場合、入力Tokenの課金が大幅に圧縮される。しかしこの手法には限界もあり、複雑なエンタープライズ環境への導入では、エージェントの経路が高度に分岐することによるキャッシュ分散の無効化によって、実際のコスト削減効果は比較的限定的となる。より根本的な解決策はコンテキスト圧縮にあり、単純に履歴情報をスライド切断するのではなく、意味レイヤーでの能動的な圧縮、すなわち重要な命令と推論の連鎖を保持し、重複や冗長性を除去することである。このようなセマンティックコンテキスト圧縮（Semantic Context Compression）は、命令遵守率を保ちながら、入力Tokenの消費を顕著に削減できる。

スキル最適化と引き算の思考。Gao et al.,（2026）のSkillReducer研究は、スキル最適化の二つの道筋を提供している。一つは記述圧縮であり、ルーティング記述の不足したスキルに簡潔な情報を補い、冗長な背景説明や事例を圧縮する。もう一つは漸進的ロードであり、完全なスキルを一度にコンテキストに詰め込むのではなく、必要に応じてロードすることで、スキル容量の39%圧縮を実現する5。両者を重ね合わせると、スキル呼び出しのToken消費を大幅に圧縮すると同時に、モデルの機能品質はむしろ2.8%向上する。ここから見て取れるのは、エージェントのスキル呼び出しは多ければ多いほど良いわけではなく、必要な時に引き算を行う利益は足し算をはるかに上回るということだ。コンテキスト内の無効な情報を減らすことは、Token消費を削減するだけでなく、モデル出力の正確性も高める。Less is moreはここにおいて、コードの美しさに適うだけでなく、Tokenをより経済的にする。

モデルルーティングとタスクの振り分け。大きなモデルで鶏を割くのに牛刀を用いることは、Token浪費の重要な原因の一つである。タスクの複雑度に応じた適応的モデルルーティング（Model Routing）によって、単純で高頻度なサブタスクを特定領域の能力を持つオープンソース軽量モデルに任せ、重要な判断ポイントでのみ高価なFrontierモデルを動員する。このような階層化された呼び出しは、単位タスクあたりの平均Tokenコストを大幅に引き下げ、かつ重要な工程の品質を犠牲にしない。

マルチエージェントの予算ハード制約と司会者アーキテクチャ。分業も予算上限も明確な停止条件もないマルチエージェントシステムは、マラソン式のおしゃべり会に発展する確率が大いに高まる。解決への道筋は、マルチエージェント協調ネットワークの中に、ハードな予算制約（Hard Budget Constraints）と非同期仲裁メカニズムを備えた司会者アーキテクチャを設計することである。Luo et al.,（2026）が提唱したモンテカルロ木探索手法は、マルチエージェントのプロセスに中間ステップのツール検証を加え、候補状態を保存し、必要に応じてロールバックする。この考え方を推論レイヤーからアーキテクチャレイヤーへと引き上げ、各サブタスクにToken予算上限を設定し、司会者エージェントが全体の消費を監視し、予算が尽きる前に無効なループを強制終了させることができる7。これは財務的な制御不能を防ぐだけでなく、多くの場合、システム全体の効率も同時に向上させる。

（二）ビジネス面における価値のアンカリング

Tokenガバナンスとコスト規律。マイクロソフトがClaude Codeを制限し、MetaがToken消費ランキングを撤去したことからも、大手企業は既にToken消費の単純な奨励から、Tokenの産出とコスト規律を重視する方向へと舵を切っている1,2。割当枠、承認、モデルルーティング、コスト帰属、チーム別請求書――これらの施策は今後、企業のAIガバナンスの基本的な方式になる確度が高い。これはAIが生産システムに入った後の必然的な段階であり、AIがイノベーションを促進し生産を加速する強力なツールだとしても、帳尻をきちんと合わせなければならない。どれだけのTokenを使い、どれだけ検証可能なアウトプットを生み、どれだけの手戻りを生じさせたか、すべて計量される必要がある。計量なくして管理はなく、上限なくして規律はない。本当に先進的な企業が評価するのは、AIを最も多く使うことではなく、最も少ないTokenで最も多くの仕事を成し遂げることだ。

割当制は常態となる。企業はTokenを無制限に供給するのではなく、クラウドコンピューティングリソースを管理するように、予算プールと承認プロセスを設定する。このガバナンスは技術革新と対立するものではなく、まさにその逆で、割当制はアーキテクトにより高効率なエージェントシステムを設計させるよう促し、コスト制約を内面化させる。

Tokenの大規模商業応用の現実的なシーンを見出すこと。これはTokenの純便益をプラスに転換するための根本である。プログラミングやエージェントアーキテクチャはToken経済へ向かう小さな一歩に過ぎず、巨大な生産性の跳躍を生み出せるビジネスシーンを見つけ出すことこそが、Token経済の発展の高速レーンに入り、巨大な経済価値を創造する前提条件である。現在のところ、現実のビジネスシーンでエージェントアーキテクチャを大規模に応用し、大きな収益をもたらした事例は依然として少なく、しかもその多くは個別事例である。他企業や他業界に広く応用可能な汎用的ソリューションは、依然として構想段階にある。

具身化AIとデジタルツインは拡張の方向性の一つだが、Sim-to-Realギャップがもたらす非対称な検証コストを直視しなければならない。より現実的な道筋は、伝統産業の中から弱い確定的フィードバックを持つ中間領域を探すことである。例えば、補助診断における画像スクリーニング（画像診断基準が参照できる）、サプライチェーンにおける需要予測（過去データでバックテストできる）、法務分野における契約書の一次スクリーニング（条項テンプレートと比較できる）などである。これらのシーンの検証コストはコンパイラのようにゼロに近づくわけではないが、純粋な物理世界での検証よりははるかに低く、Token経済がデジタルサンドボックスから現実世界へと渡る架け橋となることが期待される。OpenAIが最近ロボット研究を再開したことは、具身化AIが難しくとも、決して迂回できないことを示している。

（三）ROIへの回帰

生み出した価値が費やしたコストを上回らないような投入は、いかに技術が先進的であろうと、最終的に持続不可能である。Token不経済は技術の失敗ではなく、技術が大規模生産へと向かう際にしばしば遭遇する一時的な困難である。産業革命初期の蒸気機関が、効率が低く石炭消費が驚くほど多かったのと同じで、それは蒸気機関が生産力発展の未来の方向性を代表することを否定するものではない。熱効率の不断の改良と応用シーンの拡大を通じて、蒸気動力は最終的に第一次産業革命を駆動する最も根本的な力となった。

今日のTokenとエージェントアーキテクチャは、まさに初期の蒸気機関のようなもので、騒音は大きく燃費は悪いが、特定のシーンでは既に人間の力をはるかに超える潜在力を示しており、その後の発展は必然的に、粗放から精緻へと向かう幾度もの技術革新の連続となる。将来より価値あるエージェントは、最も複雑な思考連鎖を持つエージェントではなく、最も少ないTokenで物事を成し遂げるエージェントである。

業界が「多さ」を誇る技巧披露の段階から「精緻さ」を貴ぶ生産段階へと入り、一つひとつのTokenの消費が、その産出にどのような価値があるかを問われなければならなくなるとき、TokenがROIという金本位制に回帰することで、エージェント時代は自らの価値方程式を手にする。