日本のAIダークホースが登場：7B小モデルはいかにしてFableやMythosに挑むのか？

2026年6月22日、Sakana AIが発表した新モデルFuguがAIコミュニティに衝撃を与えた。厳格なベンチマークであるSWE-Bench ProとTerminalBenchにおいて、Fugu Ultraはそれぞれ73.7点と82.1点を獲得し、GPT-5.5やClaude Opus 4.8を上回り、輸出規制対象のFable 5やMythos Previewと肩を並べるとさえ宣言した。驚くべきことに、エンジニアリングと推論能力で頂点に立ったこのシステムの中核は、数千億パラメータの巨獣ではなく、わずか7Bパラメータのモデルである。それは自ら作業するのではなく、「現場監督」として世界トップクラスの大規模モデルを動的にスケジューリングする。この常識を覆すアーキテクチャは、「パラメータこそ正義」という幻想を打ち破っただけでなく、計算資源制約下における日本のAIの突破口をも映し出している。

7Bパラメータの「現場監督」：Fuguの常識破りのアーキテクチャ

Fuguの特異性を理解するには、まずその出自を見る必要がある。Sakana AIは、Transformer論文の共著者Llion Jonesと元Google研究員のDavid Haによって2023年に東京で設立された。この会社は誕生時から「自然に着想を得た」遺伝子を持ち、進化的アルゴリズムや自然界の群知能を用いてAI問題を解決することに注力している。2025年、Sakana AIはNVIDIA、Googleなどの巨大企業から投資を受け、評価額は25億ドルを超えた。しかし、巨大企業の後ろ盾があっても、日本国内には米中のような膨大な計算資源インフラやデータプールが依然として不足している。このようなリソース制約の下、Sakana AIは数千億パラメータの大規模モデルに真っ向から挑むのではなく、「オーケストレーション」の道を選んだ。

Fuguの公式な位置づけは、「単一の基盤モデルとしてのマルチエージェントオーケストレーションシステム」である。従来のAIアーキテクチャでは、大規模モデルは「一枚岩の巨獣」であり、ユーザーがプロンプトを入力すると、モデルは最初のニューラルネットワーク層から最後の層まで計算し、結果を出力する。このモードは単純な問題を処理する際には極めて効率的だが、複雑な多段階のエンジニアリングタスクに直面すると、しばしば幻覚や論理の破綻が生じる。

Fuguはこのパラダイムを完全に変えた。その中核は、強化学習で訓練された7Bパラメータモデルであり、RL Conductorと呼ばれる。この7Bモデル自体は最終的な回答を直接生成せず、「現場監督」の役割を担う。ユーザーが単一のOpenAI互換APIを通じてタスクを送信すると、RL Conductorはタスクの種類を動的に分析し、サブタスクをエージェントプール内の世界トップモデル（GPT-5、Gemini 3.1 Pro、Claude Opus 4.8など）に割り当てる。それはこれらのモデルの出力をスケジューリング、検証、合成し、最終的に多重チェックを経た結果を提供する。

このアーキテクチャの理論的裏付けは、ICLR 2026の2本の論文『TRINITY: An Evolved LLM Coordinator』と『Learning to Orchestrate Agents in Natural Language with the Conductor』によるものだ。論文では、小規模パラメータモデルが強化学習を通じてどのように大規模モデルを「指揮」するかが詳細に説明されている。これはTest-time scaling（テスト時スケーリング）のパラダイムを変えた。これまで計算資源は主にモデル内部の深い推論、つまりモデルに答えを「徹底的に考えさせる」ために使われていたが、今や計算資源は外部のスケジューリング、検証、合成に使われる。従来の大規模モデルが万能型の単体であるのに対し、Fuguは専門家チームである。7BのRL Conductorは、モデルのパラメータ数がもはや能力を決定する唯一の基準ではなく、ツールや外部エージェントを呼び出す方法を知っていれば、同様に性能の飛躍を実現できることを証明した。

ベンチマークスコアの背後にある真実：Fableに匹敵し、GPT-5.5を超越

Fuguがセンセーションを巻き起こした直接の理由は、厳格なベンチマークテストでのスコアにある。AI業界において、ベンチマークスコアはモデルの能力を測るハードカレンシーだが、ベンチマークによって重点は全く異なる。Sakana AIが選択したSWE-Bench ProとTerminalBench 2.1は、いずれも実際のエンジニアリング環境に近い「難題」である。

SWE-Bench Proはソフトウェアエンジニアリング能力に特化しており、実際のコードベース内でバグを特定し修正することをモデルに要求する。Sakana AIのコンソールが発表したデータによると、Fugu UltraはSWE-Bench Proで73.7点を獲得した。比較として、Claude Opus 4.8は69.2点、GPT-5.5は58.6点、Gemini 3.1 Proは54.2点だった。システム操作能力をテストするもう一つのTerminalBench 2.1では、Fugu Ultraは82.1点を獲得し、GPT-5.5の78.2点、Opus 4.8の74.6点を上回った。これら2つのテストは、モデルのコード生成能力だけでなく、多段階で長いチェーンのタスクにおける論理的安定性とツール呼び出し能力も評価する。Fugu Ultraのリードは、複雑なエンジニアリング問題を処理する際に、単体モデルよりも途中でクラッシュしたり目標から逸脱したりする可能性が低いことを意味する。

さらに注目を集めたのは、FuguとFable 5およびMythos Previewとの比較である。AnthropicのFableシリーズと、別のフロンティアラボのMythosシリーズは、現在のAI推論能力の最高水準を代表している。しかし、輸出規制の対象となっているか、完全には公開されていないため、これら2つのモデルはFuguのエージェントプールには含まれていない。Sakana AIは公式に、Fugu Ultraがエンジニアリングと科学のベンチマークでFable 5およびMythos Previewと「肩を並べる」と主張しているが、明確にしなければならないのは、この比較は同一プールでの実測ではないということだ。Fuguのスコアは自社システムの実際の実行結果に基づいているが、FableとMythosのデータは各メーカーが公開した報告スコアに基づいている。

この比較方法は、開発者コミュニティで一定の論争を引き起こした。異なるシステムの異なる環境下でのテスト条件を完全に一致させるのは難しく、単純なスコア比較は公平さを欠くという意見がある。一方で、統一された実測環境がない場合、メーカーの報告データを参照するのは業界の慣例であると指摘する開発者もいる。FableやMythosとの論争はさておき、Fugu UltraがSWE-Bench ProとTerminalBench 2.1でGPT-5.5とOpus 4.8を上回ったことは、疑いようのない同一条件での比較である。この超越は、Fuguの基盤モデルがGPT-5.5よりも賢いからではなく、RL Conductorがタスク分解と専門家スケジューリングにおいてより正確だからだ。AutoResearch、ルービックキューブの復元、機械設計など、複数ラウンドの推論と検証を必要とする実験でも、Fuguは一貫して優位性を示した。これは、「長く、混乱し、多段階の」現実世界のワークフローを処理する際に、マルチエージェントオーケストレーションのアーキテクチャが単体モデルよりも確かに高い回復力を持つことを示している。

実際の開発シーンでの実測：コードレビューと長いセッションの安定性

開発者やAIツールユーザーにとって、ベンチマークスコアはあくまで参考であり、モデルが本当に使いやすいかどうかを決めるのは、実際の作業シーンでのパフォーマンスである。Fuguはリリース前に約500名のアーリーアダプターによるベータテストを実施し、これらのユーザーからのフィードバックが、Fuguの実用における独自の価値を明らかにした。

コードレビューは、開発者が最も頻繁に使用するAIシナリオの一つである。従来の単体モデルはコードをレビューする際、表面的な構文エラーや一般的な論理の抜け穴しか発見できないことが多かった。しかしベータテストでは、Fuguがコードレビューにおいて並外れた緻密さを示し、深層のアーキテクチャバグを発見できた一方で、他のツールは少数の表層的な問題しか見つけられなかったと、ある開発者が報告している。この違いはFuguのアーキテクチャに由来する。RL Conductorはコードレビュータスクを受け取ると、静的解析に優れたモデル、論理推論に優れたモデル、セキュリティレビューに優れたモデルをそれぞれ呼び出し、同じコードに対して多角的なクロスバリデーションを実行できる。この「専門家によるコンサルテーション」モードは、単一モデルの「単独行動」よりも当然多くの隠れた問題を発見できる。

もう一つ高頻度で言及された利点は、長いセッションの安定性である。AIエージェント製品を構築する際、開発者が最も頭を悩ませる問題の一つが、長いセッションにおけるモデルの「ペルソナドリフト」である。対話のラウンド数が増えるにつれて、単体モデルはしばしば初期設定を忘れたり、指示への追従にずれが生じたりする。ある企業幹部はテスト後、Fuguは長いセッションでもペルソナ（キャラクター設定）が非常に安定しており、ほとんどドリフトが発生しないとフィードバックした。これは、RL Conductor自体が長文の記憶を維持する責任を負わず、各対話ラウンドで現在のコンテキストに基づき、最も適切な基盤モデルを正確に選択して応答を生成するだけだからだ。この「制御と生成の分離」アーキテクチャは、長時間稼働におけるエージェントの安定性を大幅に向上させる。

サイバーセキュリティ分野でも、Fuguはエンドツーエンドの実戦能力を示した。テストでは、Fuguは偵察、XSS/SQLi脆弱性検出から認証レビューまでの全プロセスを独立して完了し、完全なペネトレーションテストレポートを生成し、かつシステムを越権破壊しないという指示を厳格に遵守した。この複雑なタスクの完遂度は、RL Conductorによるセキュリティツールチェーンと異なる大規模モデル能力の正確なオーケストレーションに依存している。

さらに、トークン効率もFuguの大きなハイライトである。従来の大規模モデルは複雑な問題を処理する際、しばしば冗長な思考連鎖を生成し、大量のトークンを消費する。一方、FuguのRL Conductorは正確なルーティングにより、無意味な長いCoTの消費を回避する。公式および初期テストでは、無効なトークンの浪費を大幅に削減できることが示されている。トークン課金の開発者にとって、これはコスト削減だけでなく、応答速度の向上も意味する。

基盤依存の弱点：マルチエージェントオーケストレーションの代償

Fuguはアーキテクチャとベンチマークスコアで目を見張るものがあるが、実務向けのツールとして弱点がないわけではない。マルチエージェントオーケストレーションのアーキテクチャは、性能のブレークスルーをもたらすと同時に、無視できないリスクと制限ももたらす。

最も核心的な問題は、基盤依存のリスクである。Fuguのエージェントプールは、GPT、Claude、Geminiといった米国大手の基盤APIに大きく依存している。RL Conductorは動的ルーティング能力を備えており、あるモデルに障害やレート制限が発生した場合に他のモデルに切り替えることができるが、これは単一サプライヤーのリスクを回避しているに過ぎず、米国のAIインフラエコシステム全体から脱却したわけでも、脱却できるわけでもない。もしこれらの基盤モデルが一斉に値上げしたり、大規模なレート制限を実施したり、API規約を変更したりすれば、Fuguのコスト構造と安定性は直接的な打撃を受けるだろう。このように他者のインフラに「寄生」するモデルは、商業化と長期的な安定性において本質的な脆弱性を抱えている。

次に、遅延とコスト構造のトレードオフがある。RL Conductorは正確なルーティングによって無効なトークンの消費を節約するが、マルチエージェントオーケストレーションには必然的に複数回のAPI呼び出しとモデル間通信が伴う。リアルタイムの音声対話や高頻度取引の補助など、極めて低遅延が要求されるリアルタイムインタラクションシナリオでは、Fugu Ultraの「深い思考とスケジューリング」時間は、単体モデルを直接呼び出すよりも長くなる可能性がある。応答速度が極めて重視されるシナリオでは、Fuguのアーキテクチャ上の利点が逆に体験の足かせとなる可能性がある。

さらに、比較の公平性に関する論争も常に存在する。前述のように、FuguはFableやMythosと肩を並べると主張しているが、後者2つはFuguのエージェントプールには含まれていない。開発者コミュニティでは、このようなメーカー報告データに基づく比較に実際の参考価値があるのか疑問視する声がある。結局のところ、異なるモデルは異なるタスク分布においてパフォーマンスが大きく異なり、単純な総合スコアの比較は具体的な優劣を覆い隠す可能性がある。モデル能力を正確に評価する必要がある開発者にとって、同一プールでの実測データが不足していることは、選定時に依然として慎重さが求められることを意味する。

計算力ではなくオーケストレーションで勝負：日本発大規模モデルの非対称的突破口

具体的な製品レビューを離れると、Fuguの誕生は日本の大規模モデルエコシステムにとってより深い意味を持つ。世界的なAI軍拡競争の中で、日本は微妙な立場にある。米国のような絶え間ない最先端の計算力とフロンティアアルゴリズムの蓄積もなければ、中国のような膨大なデータプールと激しい市場競争環境もない。さらに深刻なことに、日本は米国のフロンティアモデル（Fable/Mythosなど）の輸出規制リスクにも直面している。このような背景の下、Sakana AIの「進化的アルゴリズム」と「マルチエージェントオーケストレーション」の路線は、リソース制約国による「非対称的突破口」の論理を示している。

日本国内に大規模モデルメーカーがいないわけではない。NTTはtsuzumiを発表し、ELYZA、Rinna、LLM-jpなどの機関も国産言語モデルの訓練に努めている。しかし、これらのメーカーのほとんどは「ゼロからの訓練」という従来の路線を進んでおり、パラメータ規模や汎用能力において、米中のトップモデルに対抗するのは難しい。Sakana AIは、その中で唯一世界的なフロンティアでの影響力を持ち、「非対称アーキテクチャ」を主軸とするラボである。

Fuguの動的ルーティング能力は、本質的に日本の企業や機関が「AI主権」（AI Sovereignty）を確立するのを支援している。計算力が制限されている状況では、巨費を投じてGPT-5.5に及ばない数千億パラメータモデルを訓練するよりも、賢い7Bの「現場監督」を訓練する方が良い。この現場監督は、タスクの要求に応じて、世界最高のモデルに柔軟にアクセスできる。もしある日、特定の米国モデルが輸出規制や供給停止の対象となった場合、RL Conductorは迅速にタスクを他の利用可能なモデルにルーティングし、さらには日本国内の専用モデルに接続することもできる。このアーキテクチャにより、日本はAI能力の利用において、一定の自律性とリスク耐性を獲得する。

OmniToolsがグローバルなAIツールエコシステムを観察する中で発見したのは、大規模モデルの能力は徐々に平準化されつつあり、競争の主戦場は単純なパラメータの積み重ねから、ツールチェーンと実装シーンへと移行しているということだ。Fuguの登場はまさにこのトレンドを裏付けている。それはもはや単一モデルで極致を追求するのではなく、システムレベルで最適を追求する。この考え方は、計算力とデータの両面で優位に立てない国や地域にとって、重要な参考意義を持つ。

もちろん、この「非対称的突破口」にも天井はある。基盤モデルの中核技術が依然として少数の巨大企業に握られている限り、オーケストレーションシステムの能力上限は基盤モデルによって制限される。Fuguは7Bモデルが優れた指揮官になり得ることを証明したが、基盤モデルが持たない能力を無から作り出すことはできない。日本の大規模モデルが真の突破口を開くためには、オーケストレーションアーキテクチャの革新に加えて、基盤となる計算力、コアアルゴリズム、高品質データへの継続的な投資が依然として必要である。Fuguは精巧なシステムレベルのイノベーションだが、万能薬ではない。開発者や企業ユーザーにとって、Fuguは複雑なエンジニアリングシナリオにおいて非常に競争力のある新たな選択肢を提供するが、使用にあたっては、その基盤依存の脆弱性と遅延コストのトレードオフを冷静に認識する必要がある。