IOSG：推論能力が希少な資源となったとき、その価値は誰が獲得するのか？

著者｜Frank Fu @ IOSG

2023年にデビッド・カーンが指摘したボトルネックは、トレーニング側では決して解消されなかった。解消されたのは推論側であり、市場がそれを価格に反映させ始めたのはここ数週間のことだ。Nvidiaが「サービストークン」を中心に財務諸表を再構築し、CerebrasのIPOが20倍もの応募超過となったことで、ボトルネックに関する議論は終結した。真の問題は、推論が希少なリソースとなったとき、コンピューティングスタックのどこに価値が置かれるのか、ということだ。

GPUに続く： 2000億ドルの問題から6000億ドルの問題へ

2023年、セコイア・キャピタルのデビッド・カーン氏は、AIインフラ全体にのしかかる「2000億ドル問題」を提起した。GPUに1ドル投資するごとに、データセンターでそのGPUを稼働させるためにさらに約1ドルが費やされる。したがって、毎年のGPU設備投資額は、これらのチップが最終的に約2000億ドルの収益を生み出し、その投資を回収する必要があることを意味する。AIの収益について非常に寛大な仮定を置いたとしても、彼は「投資」と「エンドユーザーからの実際の支払い」の間に1250億ドル以上のギャップがあることを発見した。懸念は明らかだ。GPUは実際の需要に先駆けて過剰に生産されているのだ。

1年後、その差は縮まるどころか拡大した。2024年の続編で、カーンはハイパースケールメーカーの設備投資が拡大するにつれ、それを「6000億ドルの問題」と再定義した。弱気な論理は、過剰建設が過剰供給につながり、過剰供給が資本を浪費するという、おなじみの形に収束した。

どちらの記事も本質的に同じ疑問を投げかけている。「この穴を誰が埋めるのか？」その答えは、これまで「トレーニング」側の帳簿には現れていない。答えは推論側の帳簿に現れており、市場がそれを価格に織り込み始めたのはここ数週間のことだ。

CerebrasのIPOとInference Squeeze

Cerebrasは木曜日に株式公開を行った。新規株式公開（IPO）は20倍の応募超過となり、価格は水曜日の最終入札価格のほぼ2倍となった。この需要は「次世代のNvidiaキラー」への期待からではなく、もっと単純な理由から生じた。つまり、市場はAIにおける真のボトルネックは学習ではなく推論にあることに気づき始めているのだ。

Cerebrasの最大の強みは、極めて高速な推論を可能にするチップアーキテクチャにある。学習ではなく、推論だ。まさにこの点がウォール街を熱狂させている。推論市場は、利用が進むにつれて拡大し続ける、継続的な需要がある。Claudeが質問に答えるたび、エージェントがタスクを実行するたびに、計算能力が消費される。学習は一度しか行われないが、推論は決して止まることがない。

JPモルガンは、推論市場の規模がトレーニング市場の10倍から50倍になると推定している。マシンが他のマシンから割り当てられたタスクを実行し始めると（エージェント拡張）、推論の需要はユーザー数の増加ではなく、コンピューティング能力そのものの増加に伴って拡大するようになる。

Nvidiaが市場環境を刷新：推理が話題を呼ぶ

Cerebrasが市場の覚醒を告げるものだったとすれば、Nvidiaの最新の四半期決算報告は、業界トップからの確証と言えるだろう。最新の決算説明会で、ジェンセン・フアンCEOは暗黙のメッセージを明確にした。AIの需要は急激に伸びている。理由は単純だ。アジャイルAIが到来したのだ。主流のAIは、単発的な推論から論理的な推論へと移行し、自律的にツールを呼び出し、タスクをオーケストレーションできるエージェント段階に入りつつある。フアンCEOは「トークンは今や収益を生み出す」と述べた。AI時代においては、コンピューティング能力は収益と利益に直結する。

これにより業界全体が大きく変貌した。トレーニングはモデル構築のための1回限りのコストである一方、推論はモデル運用に伴う継続的なコストである。現在、ボトルネックはトレーニングではなく推論となっている。

Nvidia はこの評価を財務諸表に組み込んでいます。現在は、データセンターとエッジコンピューティングという 1 つのプラットフォームではなく、2 つのプラットフォームにわたって開示しています。データセンター (当四半期は約 750 億ドル、前年同期比 92% 増) は、ハイパースケール (380 億ドル、前四半期比 12% 増) と ACIE (AI クラウド、産業、エンタープライズ) (370 億ドル、前四半期比 31% 増) にさらに細分化されています。新しい項目はエッジコンピューティングで、64 億ドル、前年同期比 29% 増となっており、PC、ワークステーション、AI-RAN 基地局、ロボット、自動車など、AI や物理 AI が実際に実行されるエンドポイントを対象としています。

エッジコンピューティングは現在、総収益の 8% 未満を占めていますが、Nvidia はこれをデータセンターと並ぶ「第 2 のプラットフォーム」に位置づけています。これは、推論が 2 つの戦線に分かれていることを示しています。データセンターでのクラウド推論と、エッジでのエンドポイント推論です。これにより、AI は物理世界で認識、移動、行動できるようになります。ロードマップも同じ論理に従っています。第 3 四半期から出荷される Vera Rubin は、Blackwell の最大 35 倍の推論スループットを誇ります。また、Huang 氏は、学術機関向けに設計された Vera CPU の TAM を新たに 2,000 億ドルと設定しました。最先端のモデリング企業はすべて、初日からこれを全面的に採用すると予想されています。

ボトルネックに関する議論は、世界で最も価値のある企業が「サービストークン」を中心に財務開示を再構築したことで、実質的に決着がついたと言えるでしょう。本稿の残りの部分では、推論（トレーニングではなく）が希少なリソースとなった場合に、誰が価値を獲得するのかについて考察します。

まず、議論の範囲を明確にしておきましょう。この議論では、クラウド推論、特にAPIトークンサービスを提供するデータセンターのレンタルGPUに焦点を当てています。エンドポイント推論は、デバイスの内部ローカルチップ（NvidiaのJetson、RTX、Drive、AI-RANなど）上で実行され、基盤となるGPUリースおよび集約スタックを完全にバイパスします。ここでは、これは推論経済全体を増幅させ、ボトルネックの議論を裏付ける追い風として捉えてください。HyperbolicやVeniceといった完全にクラウド側で事業を展開する市場を指すものではありません。

窮地に陥った。

Anthropicは炭鉱のカナリアのようなものだ。その利用量は事前設定された容量をはるかに超え、レート制限応答、推論の遅延、コンテキストウィンドウの圧縮など、Claudeが「脳葉切除」されたという苦情がインターネット上に溢れかえっている。解決策は純粋なコンピューティングパワーだ。2026年5月、AnthropicはSpaceXからColossus 1データセンター全体を引き継ぎ、22万台以上のNvidia GPUと300メガワット以上の電力を、トレーニングではなく推論専用に割り当てた。

この容量解放は、一連の制限変更を引き起こし、それぞれがシグナルとなった。5月6日、AnthropicはClaude Codeの5時間制限を倍増し、ピーク時のレート制限を撤廃し、OpusのAPIレート制限を大幅に引き上げた。5月13日には、Claude Codeの週ごとの制限をさらに50%引き上げた（7月13日まで）。そして6月15日からは、「寛大」とは正反対の措置を取った。エージェントとプログラムによる使用（Agent SDK、ヘッドレスclaude -p、CIパイプライン）を定額サブスクリプションから除外し、別途計測されるクレジットプール（月額20ドルから200ドル、API価格で請求）に移した。この最終ステップにより、議論全体が1つのアクションに集約された。エージェントは定額サブスクリプション設計で処理できる速度をはるかに超えて推論を消費するため、元の「継続コスト」に基づいて価格設定する必要がある、というものだ。

トレーニングは一度限りの設備投資です。一方、推論は継続的な運用コストであり、新規ユーザーや新規エージェントを獲得するたびに利息が加算されて増加します。

このスタックは6層構造で、ボトルネックが1つあります。

すべてのAIアプリケーションは、TSMCのウェハー製造工場から始まり、APIエンドポイントで終わるサプライチェーンの上に成り立っています。

ほとんどの企業は1つのレイヤーしか所有していません。Nvidiaはシリコンを、CoreWeaveはベアメタルを、Together AIは推論最適化を、そしてOpenRouterはモデルAPIルーティングを所有しています。

ただ一つ例外があった。

ハイパーボリック：3フロアにまたがる唯一の企業

Hyperbolicは2025年6月にオンデマンドGPUマーケットプレイスを立ち上げた。サービス開始からわずか数ヶ月で20万人以上の開発者を獲得し、最先端のAI研究所、検索エンジン、主要な消費者向けプラットフォームなど、幅広い分野で採用されている。

興味深いのはその建築様式だ。

HyperbolicはGPUを1枚も所有していません。すべてのカードは、CoreWeave、Lambda Labs、Nebiusなどのネオクラウドやデータセンター、そして遊休容量を持つ小規模キャリアから調達しています。これは弱点のように聞こえるかもしれませんが、実際には大きな強みとなっています。

HyperbolicはGPUサプライヤーと消費者の間に位置することで、他社には入手できないリアルタイムデータを把握できます。誰がどのGPUをいくらでいつ購入しているかを把握し、供給過剰が公になる前にそれを察知し、需要の急増が市場に出回る前にそれを察知できるのです。

現在、Hyperbolicの強みは、このマルチクラウド集約そのものです。Hyperbolicは、数十もの独立したクラウドやデータセンターから断片化された容量を標準化された統一プールに統合し、開発者が各事業者と交渉したり、多数のアカウントを管理したりすることなく、どこでも最も安価なGPUをレンタルできるようにしています。接続するクラウドが増えるほど、流動性は高まり、価格データも豊富になります。今後、Hyperbolicチームは、このデータを使用してGPUの価格曲線をモデル化し、最終的には自社の資本を投じて需給を平準化し、物理コンピューティング能力のマーケットメーカーとして機能する方法を模索していますが、この目標はまだ初期段階にあり、現状を真に複雑にしているのは集約レイヤーです。

これがフライホイールです。

より多くのクラウドに接続 → より多くの集約供給
供給量の増加 → より詳細な市場データとリアルタイムの価格データ
より質の高いデータは、現在におけるよりスマートなルーティングにつながり、長期的には価格設定モデルにも影響を与える。
流動性と価格設定の改善 → 開発者の増加 → クラウドコンピューティングリソースの増加

他社はこのような取り組みをしていません。Hyperbolicは、GPUリース層、デプロイメント層、モデルAPI層を同時に網羅する唯一の企業です。

ヴェネツィア、鏡

Veniceは、アプリケーション層における推論経済の最も明確な具現化であり、Hyperbolicの立場とは対照的な存在と言えるでしょう。プライバシーを最優先とする推論アプリケーションであり、OpenAI互換のAPIに加え、消費者向けサブスクリプション（無料/プロ/プロ+/マックス）を提供し、約75のモデルにリクエストをルーティングします。そのうち約3分の2はオープンソースまたは自社ホスト型のモデル（Llama、Mistral、Qwen、DeepSeek）で、残りはクローズドソースの最先端モデルを匿名でパススルーしたものです。重要なのは、Venice自体が実質的な計算能力を所有していない点です。非公開のGPUパートナーや機密性の高いコンピューティングプロバイダー（NEAR AI Cloud、Phala）からレンタルし、パススルーのために最先端の研究所に料金を支払っているため、収益の真のコストはSaaSホスティングではなく、推論計算能力なのです。

ベニスはまさにプライバシーを売り物にしている。この「プライバシー」とは、公共のコンピューティング能力を私有財産にするという意味ではなく、むしろコモディティ化された推論を保護層で包み込むことを意味する。データ保持なし、トレーニングへの利用なし、匿名化要求、そしてワークロードの一部はTEE（Trusted Execution Environment）内で実行されるため、オペレーター自身にも見えない。基盤となるコンピューティング能力は容易に利用可能であり、追加コストはこのプライバシー層である。さらに、この保護は階層化されており、均一ではない。独自の制御GPUまたはTEE GPU上で実行されるオープンソースモデルの場合、ほぼエンドツーエンドの機密計算が実現される。しかし、ClaudeやGPTのようなクローズドソースモデルの匿名パススルーの場合、プライバシーは単にIDを剥ぎ取るだけであり、最先端のラボは依然として元のプロンプトを処理している。したがって、最も強力なプライバシーはオープンソース部分のみを対象としており、最先端のモデル部分は「匿名」であって「真に機密」ではない。 Veniceの粗利益は、購読料から下流ユーザーに支払われる推論コストを差し引いたものであり、API単体価格と比較して生み出される追加収益は、ほぼすべてこのプライバシープレミアムによって支えられています。そのため、利益率は低く、最先端のパススルーの価格設定によって制約を受けています。

トークン設計はこの推論需要を包含しています。Veniceは2つのトークン、VVV（ステーキングとプラットフォームアクセス）とDIEMで動作します。DIEMは推論クレジットであり、各DIEMは1日あたり約1ドルの計算能力に相当します。有料サブスクリプションは、VVVのプログラムによる買い戻しとバーンをトリガーします（Pro/Pro+/Maxでそれぞれ約2ドル/5ドル/10ドル）。発行量は固定スケジュールに従って減少します。毎月600万→500万→400万VVVとなり、7月1日には300万VVVに減少します。買い戻しは実際に行われますが、裁量によるもので、まだ比較的小規模です。4月と5月にそれぞれ約10万3000ドルがバーンされ、6月には約11万ドルまで徐々に増加していますが、月間しきい値である20万ドルを大きく下回っています。

ファンダメンタルズは、見出しが示唆するよりも健全です。「年間経常収益（ARR）7,000万ドル」という公表されている数字は、おそらくサブスクリプションの更新を新規顧客獲得と誤解釈したものでしょう。より妥当で現実的な範囲は、ARRが600万ドルから1,500万ドルに近いと考えられます。この数字を下回るものの、着実な成長が見られます。仮想通貨アドレスは約13万6,000件、ウェブサイトへの月間訪問数は約990万回（1日あたり約33万回）、新規Proサブスクリプション数は1日あたり約1,400件となっています。これは確かにビジネスですが、利益率は低く、購入するコンピューティング能力によって経済性が制約されています。

まさにこれが、HyperbolicがVeniceよりも一段上のレベルに位置する理由です。Veniceがガソリンスタンドだとすれば、Hyperbolicは石油精製所のようなものです。Veniceは誰もが頼っている限られた供給源からコンピューティングパワーを購入しますが、Hyperbolicはその断片化された供給源を集約・標準化し、VeniceやHyperbolicのような他の事業者に販売します。推論需要が増加するにつれて、コンピューティングパワーを消費するアプリケーションだけでなく、コンピューティングパワーを集約・ルーティングし、これらのアプリケーションが支払う収益コストを回収するレイヤーにも価値が蓄積されます。

なぜこの問題が今重要なのか

Nvidiaは「サービストークン」を中心に財務構造を再構築した。CerebrasのIPOは、推論がボトルネックであることを市場が理解していることを証明した。Anthropicのキャパシティ向上への取り組みは、これが現実的な問題であることを示している。エージェント型AIと物理AIは、クラウドコンピューティングとエッジコンピューティングの両方において、需要を桁違いに拡大させるだろう。

これはまた、「6000億ドル問題」を別の視点から捉えた循環を完結させるものでもある。カーン氏の弱気な論理――過剰建設とその後の供給過剰――は、最終的には正当化される可能性が高い。しかし、供給過剰はまさに資産軽量型アグリゲーターにとって最適な市場である。GPU価格が下落し、供給が数十のクラウドに分散すると、ハードウェアを一切所有せず、すべてのワークロードを最も安価なカードにルーティングするプレーヤーは価格差から利益を得る一方、常に価値が下がるGPUを保有する事業者は損失を被ることになる。ハイパーボリックは供給過剰に対して空売りではなく、買い持ちの姿勢をとっている。

最終的に勝利するのは、最も多くのGPUを保有する企業ではなく、GPUがどこに設置されているか、いくらで入手できるかを把握し、各ワークロードを最も低コストで実行できる場所にルーティングできる企業だろう。

Hyperbolicは、GPUを所有せず、純粋にソフトウェアのみで事業を展開し、3層構造を持つ企業を構築しているが、推論コンピューティング能力のための究極の集約レイヤーとなることを目指している。