日本AI黑馬殺出：7B小模型如何叫板Fable與Mythos？

2026年6月22日，Sakana AI發佈的新模型Fugu在AI社群引發震動。在嚴苛的SWE-Bench Pro和TerminalBench基準測試中，Fugu Ultra分別拿下73.7和82.1分，超越了GPT-5.5和Claude Opus 4.8，甚至宣稱與受出口管制的Fable 5和Mythos Preview不相上下。令人意外的是，這個在工程和推理能力上登頂的系統，其核心並非千億參數的巨獸，而是一個僅有7B參數的模型。它不自己幹活，而是作為「包工頭」動態調度全球頂尖大模型。這種反常識的架構，不僅打破了「參數即正義」的迷思，也折射出日本在算力受限下的AI突圍路徑。

7B參數的「包工頭」：Fugu的架構反常識

要理解Fugu的怪異之處，首先要看它的出身。Sakana AI由Transformer論文合著者Llion Jones和前Google研究員David Ha於2023年在東京創立。這家公司從誕生起就帶著「自然啟發式」的基因，致力於用進化演算法和自然界的群體智慧來解決AI問題。2025年，Sakana AI獲得了NVIDIA、Google等巨頭的投資，估值超過25億美元。但即便有巨頭背書，日本本土依然缺乏中美那樣龐大的算力基礎設施和數據池。在這種資源約束下，Sakana AI沒有選擇硬剛千億參數大模型，而是走了一條「編排」路線。

Fugu的官方定位是「作為一個單一基礎模型的多智能體編排系統」。在傳統的AI架構中，大模型是一個「單體巨獸」，用戶輸入一個提示詞，模型從第一層神經網路計算到最後一層，輸出結果。這種模式在處理簡單問題時效率極高，但在面對複雜的多步驟工程任務時，往往會出現幻覺或邏輯斷裂。

Fugu徹底改變了這一範式。它的核心是一個經過強化學習訓練的7B參數模型，被稱為RL Conductor。這個7B模型本身並不直接生成最終答案，而是扮演「包工頭」的角色。當用戶通過單一的OpenAI相容API提交任務後，RL Conductor會動態分析任務類型，然後將子任務分配給智能體池中的全球頂尖模型，比如GPT-5、Gemini 3.1 Pro或Claude Opus 4.8。它負責調度、驗證和合成這些模型的輸出，最終給出一個經過多重校驗的結果。

這一架構的理論支撐來自ICLR 2026的兩篇論文：《TRINITY: An Evolved LLM Coordinator》與《Learning to Orchestrate Agents in Natural Language with the Conductor》。論文詳細闡述了如何用一個小參數模型通過強化學習來「指揮」大模型。這改變了Test-time scaling（測試時縮放）的範式。過去，算力主要用於模型內部的深度推理，也就是讓模型「死磕」一個答案；現在，算力被用於外部的調度、驗證和合成。傳統大模型是全能型單體，Fugu則是專家團隊。7B的RL Conductor證明了，模型參數量不再是決定能力的唯一標準，懂得如何調用工具和外部智能體，同樣能實現性能的躍升。

跑分背後的真相：比肩Fable與超越GPT-5.5

Fugu之所以引發轟動，直接原因是其在嚴苛基準測試上的跑分。在AI行業，跑分是衡量模型能力的硬通貨，但不同的基準測試側重點完全不同。Sakana AI選擇的SWE-Bench Pro和TerminalBench 2.1，都是偏向真實工程環境的「硬骨頭」。

SWE-Bench Pro專注於軟體工程能力，要求模型在真實的代碼庫中定位並修復Bug。根據Sakana AI控制台公佈的數據，Fugu Ultra在SWE-Bench Pro上得分73.7。作為對比，Claude Opus 4.8得分為69.2，GPT-5.5為58.6，Gemini 3.1 Pro為54.2。在另一項測試系統操作能力的TerminalBench 2.1上，Fugu Ultra得分82.1，超越了GPT-5.5的78.2和Opus 4.8的74.6。這兩項測試不僅考察模型的代碼生成能力，更考察其在多步驟、長鏈條任務中的邏輯穩定性和工具調用能力。Fugu Ultra的領先，意味著它在處理複雜工程問題時，比單體模型更少出現中途崩潰或偏離目標的情況。

更受關注的是Fugu與Fable 5和Mythos Preview的對比。Anthropic的Fable系列和另一家前沿實驗室的Mythos系列，代表了當前AI推理能力的頂尖水準。但由於受到出口管制或未完全公開，這兩款模型並未進入Fugu的智能體池。Sakana AI官方宣稱Fugu Ultra在工程與科學基準上與Fable 5和Mythos Preview「比肩」，但必須明確的是，這一對比並非同池實測。Fugu的跑分是基於其自身系統的實際運行結果，而Fable和Mythos的數據則是基於其各自廠商公開的報告分數。

這種對比口徑在開發者社群引發了一定爭議。有觀點認為，不同系統在不同環境下的測試條件難以完全對齊，直接比分數有失公允。但也有開發者指出，在缺乏統一實測環境的情況下，參考廠商報告數據是行業慣例。拋開與Fable和Mythos的爭議不談，Fugu Ultra在SWE-Bench Pro和TerminalBench 2.1上對GPT-5.5和Opus 4.8的超越，是實打實的同條件對比。這種超越並非因為Fugu的底層模型比GPT-5.5更聰明，而是因為RL Conductor在任務分解和專家調度上做得更精準。在AutoResearch、魔方還原、機械設計等需要多輪推理和驗證的實驗中，Fugu也持續展現出優勢。這說明在處理「漫長、混亂、多步驟」的真實世界工作流時，多智能體編排的架構確實比單體模型更具韌性。

真實開發場景實測：代碼審查與長會話穩定性

對於開發者和AI工具用戶而言，跑分只是參考，真正決定一個模型是否好用的，是它在真實工作場景中的表現。Fugu在發佈前進行了近500名早期用戶的Beta測試，這些用戶的回饋揭示了Fugu在實際應用中的獨特價值。

代碼審查是開發者最常使用的AI場景之一。傳統的單體模型在審查代碼時，往往只能發現表面的語法錯誤或常見的邏輯漏洞。而在Beta測試中，有開發者回饋，Fugu在代碼審查中表現出了異常的細緻，能夠找出深層次的架構Bug，而其他工具往往只能找出少數幾個表層問題。這種差異源於Fugu的架構。RL Conductor在接收到代碼審查任務後，可以分別調用擅長靜態分析的模型、擅長邏輯推理的模型和擅長安全審查的模型，對同一段代碼進行多角度交叉驗證。這種「專家會診」模式，自然比單一模型的「單打獨鬥」能發現更多隱藏問題。

另一個被高頻提及的優勢是長會話穩定性。在構建AI Agent產品時，開發者最頭疼的問題之一就是模型在長會話中的「人設漂移」。隨著對話輪數的增加，單體模型往往會忘記最初的設定，或者在指令遵循上出現偏差。有企業高管在測試後回饋，Fugu在長會話中的Persona（人設）異常穩定，幾乎不發生漂移。這是因為RL Conductor本身不負責維持長文本的記憶，它只負責在每一輪對話中，根據當前上下文，精準地選擇最合適的底層模型來生成回覆。這種「控制與生成分離」的架構，極大地提升了Agent在長時間運行中的穩定性。

在網路安全領域，Fugu也展現出了端到端的實戰能力。在測試中，Fugu能夠獨立完成從偵察、XSS/SQLi漏洞檢測到認證審查的全流程，並生成完整的滲透測試報告，且嚴格遵守不越界破壞系統的指令。這種複雜任務的完成度，依賴於RL Conductor對安全工具鏈和不同大模型能力的精準編排。

此外，Token效率也是Fugu的一大亮點。傳統大模型在處理複雜問題時，往往會生成冗長的思維鏈，消耗大量Token。而Fugu的RL Conductor通過精準路由，避免了無意義的長CoT消耗。官方及早期測試顯示，它能顯著降低無效Token的浪費。對於按Token計費的開發者來說，這不僅意味著成本降低，也意味著回應速度的提升。

底層依賴的軟肋：多智能體編排的代價

儘管Fugu在架構和跑分上表現亮眼，但作為一款面向實際工作的工具，它並非沒有軟肋。多智能體編排的架構在帶來性能突破的同時，也帶來了不可忽視的風險和限制。

最核心的問題是底層依賴風險。Fugu的智能體池高度依賴GPT、Claude、Gemini等美國大廠的底層API。雖然RL Conductor具備動態路由能力，可以在某一模型出現故障或限流時切換到其他模型，但這只是規避了單一供應商的風險，並沒有也無法脫離整個美國AI基礎設施生態。如果這些底層模型集體漲價、大規模限流或更改API條款，Fugu的成本結構和穩定性將受到直接衝擊。這種「寄居」於他人基礎設施之上的模式，在商業化和長期穩定性上存在天然脆弱性。

其次是延遲與成本結構的權衡。雖然RL Conductor通過精準路由節省了無效Token的消耗，但多智能體編排必然涉及多次API調用和模型間的通訊。對於需要極低延遲的即時互動場景，比如即時語音對話或高頻交易輔助，Fugu Ultra的「深度思考與調度」時間可能長於直接調用單體模型。在那些對回應速度要求極高的場景中，Fugu的架構優勢反而可能成為體驗的拖累。

此外，對比公平性的爭議也一直存在。如前所述，Fugu宣稱比肩Fable和Mythos，但後兩者並未進入Fugu的智能體池。在開發者社群中，有聲音質疑這種基於廠商報告數據的對比是否具有實際參考價值。畢竟，不同模型在不同任務分佈下的表現差異很大，簡單的總分對比可能掩蓋了具體的優劣勢。對於需要精確評估模型能力的開發者來說，缺乏同池實測的數據，意味著在選型時仍需保持謹慎。

不拼算力拼編排：日本大模型的非對稱突圍

跳出具體的產品測評，Fugu的誕生對日本大模型生態有著更深層的意味。在全球AI軍備競賽中，日本處於一個尷尬的位置。它既沒有美國那樣源源不斷的頂尖算力和前沿演算法積累，也沒有中國那樣龐大的數據池和激烈的市場競爭環境。更嚴峻的是，日本還面臨著美國前沿模型（如Fable/Mythos）的出口管制風險。在這種背景下，Sakana AI的「進化演算法」和「多智能體編排」路線，展現出一種資源受限國家的「非對稱突圍」邏輯。

日本本土並非沒有大模型廠商。NTT推出了tsuzumi，ELYZA、Rinna和LLM-jp等機構也在努力訓練本土語言模型。但這些廠商大多走的是「從頭訓練」的傳統路線，在參數規模和通用能力上，很難與中美頂尖模型抗衡。Sakana AI是其中唯一具有全球前沿影響力，且主打「非對稱架構」的實驗室。

Fugu的動態路由能力，本質上是在幫日本企業和機構建立「AI主權」（AI Sovereignty）。在算力受限的情況下，與其耗費巨資訓練一個各方面都不如GPT-5.5的千億參數模型，不如訓練一個聰明的7B「包工頭」。這個包工頭可以根據任務需求，靈活接入全球最好的模型。如果某一天某個美國模型受到出口管制或斷供，RL Conductor可以迅速將任務路由到其他可用的模型上，甚至接入日本本土的專用模型。這種架構使得日本在AI能力的使用上，獲得了一定程度的自主權和抗風險能力。

OmniTools在觀察全球AI工具生態時發現，大模型的能力正在逐漸拉平，競爭的主戰場正在從單純的參數堆砌轉向工具鏈與落地場景。Fugu的出現恰好印證了這一趨勢。它不再追求在單一模型上做到極致，而是追求在系統層面做到最優。這種思路對於算力和數據都不佔優的國家和地區，具有重要的借鑑意義。

當然，這種「非對稱突圍」也有其天花板。只要底層模型的核心技術仍掌握在少數巨頭手中，編排系統的能力上限就會被底層模型所限制。Fugu證明了7B模型可以成為優秀的指揮官，但它無法憑空創造出底層模型不具備的能力。日本大模型要真正實現突圍，除了在編排架構上創新，仍需在底層算力、核心演算法和高品質數據上持續投入。Fugu是一個精巧的系統級創新，但它並非萬能藥。對於開發者和企業用戶來說，Fugu提供了一個在複雜工程場景下極具競爭力的新選項，但在使用時，也需清醒認識其底層依賴的脆弱性和延遲成本的權衡。