日本AI黑馬殺出:7B小模型如何叫板Fable與Mythos?

  • Fugu採用7B參數的RL Conductor作為調度核心,動態分配任務給GPT-5、Claude等頂級模型,實現多智能體協作。
  • 在SWE-Bench Pro和TerminalBench上分別得分73.7和82.1,超越GPT-5.5與Claude Opus 4.8,宣稱比肩Fable和Mythos。
  • 實際應用優勢:代碼審查能發現深層架構Bug,長會話保持人設穩定,可自主完成滲透測試,Token效率高。
  • 局限:底層依賴美國模型API,存在延遲和成本權衡,與管制模型對比公平性受質疑。
  • 意義:日本在算力受限下通過編排實現非對稱突圍,提升AI應用自主權。
總結

2026年6月22日,Sakana AI發佈的新模型Fugu在AI社群引發震動。在嚴苛的SWE-Bench Pro和TerminalBench基準測試中,Fugu Ultra分別拿下73.7和82.1分,超越了GPT-5.5和Claude Opus 4.8,甚至宣稱與受出口管制的Fable 5和Mythos Preview不相上下。令人意外的是,這個在工程和推理能力上登頂的系統,其核心並非千億參數的巨獸,而是一個僅有7B參數的模型。它不自己幹活,而是作為「包工頭」動態調度全球頂尖大模型。這種反常識的架構,不僅打破了「參數即正義」的迷思,也折射出日本在算力受限下的AI突圍路徑。

7B參數的「包工頭」:Fugu的架構反常識

要理解Fugu的怪異之處,首先要看它的出身。Sakana AI由Transformer論文合著者Llion Jones和前Google研究員David Ha於2023年在東京創立。這家公司從誕生起就帶著「自然啟發式」的基因,致力於用進化演算法和自然界的群體智慧來解決AI問題。2025年,Sakana AI獲得了NVIDIA、Google等巨頭的投資,估值超過25億美元。但即便有巨頭背書,日本本土依然缺乏中美那樣龐大的算力基礎設施和數據池。在這種資源約束下,Sakana AI沒有選擇硬剛千億參數大模型,而是走了一條「編排」路線。

Fugu的官方定位是「作為一個單一基礎模型的多智能體編排系統」。在傳統的AI架構中,大模型是一個「單體巨獸」,用戶輸入一個提示詞,模型從第一層神經網路計算到最後一層,輸出結果。這種模式在處理簡單問題時效率極高,但在面對複雜的多步驟工程任務時,往往會出現幻覺或邏輯斷裂。

Fugu徹底改變了這一範式。它的核心是一個經過強化學習訓練的7B參數模型,被稱為RL Conductor。這個7B模型本身並不直接生成最終答案,而是扮演「包工頭」的角色。當用戶通過單一的OpenAI相容API提交任務後,RL Conductor會動態分析任務類型,然後將子任務分配給智能體池中的全球頂尖模型,比如GPT-5、Gemini 3.1 Pro或Claude Opus 4.8。它負責調度、驗證和合成這些模型的輸出,最終給出一個經過多重校驗的結果。

這一架構的理論支撐來自ICLR 2026的兩篇論文:《TRINITY: An Evolved LLM Coordinator》與《Learning to Orchestrate Agents in Natural Language with the Conductor》。論文詳細闡述了如何用一個小參數模型通過強化學習來「指揮」大模型。這改變了Test-time scaling(測試時縮放)的範式。過去,算力主要用於模型內部的深度推理,也就是讓模型「死磕」一個答案;現在,算力被用於外部的調度、驗證和合成。傳統大模型是全能型單體,Fugu則是專家團隊。7B的RL Conductor證明了,模型參數量不再是決定能力的唯一標準,懂得如何調用工具和外部智能體,同樣能實現性能的躍升。

跑分背後的真相:比肩Fable與超越GPT-5.5

Fugu之所以引發轟動,直接原因是其在嚴苛基準測試上的跑分。在AI行業,跑分是衡量模型能力的硬通貨,但不同的基準測試側重點完全不同。Sakana AI選擇的SWE-Bench Pro和TerminalBench 2.1,都是偏向真實工程環境的「硬骨頭」。

SWE-Bench Pro專注於軟體工程能力,要求模型在真實的代碼庫中定位並修復Bug。根據Sakana AI控制台公佈的數據,Fugu Ultra在SWE-Bench Pro上得分73.7。作為對比,Claude Opus 4.8得分為69.2,GPT-5.5為58.6,Gemini 3.1 Pro為54.2。在另一項測試系統操作能力的TerminalBench 2.1上,Fugu Ultra得分82.1,超越了GPT-5.5的78.2和Opus 4.8的74.6。這兩項測試不僅考察模型的代碼生成能力,更考察其在多步驟、長鏈條任務中的邏輯穩定性和工具調用能力。Fugu Ultra的領先,意味著它在處理複雜工程問題時,比單體模型更少出現中途崩潰或偏離目標的情況。

更受關注的是Fugu與Fable 5和Mythos Preview的對比。Anthropic的Fable系列和另一家前沿實驗室的Mythos系列,代表了當前AI推理能力的頂尖水準。但由於受到出口管制或未完全公開,這兩款模型並未進入Fugu的智能體池。Sakana AI官方宣稱Fugu Ultra在工程與科學基準上與Fable 5和Mythos Preview「比肩」,但必須明確的是,這一對比並非同池實測。Fugu的跑分是基於其自身系統的實際運行結果,而Fable和Mythos的數據則是基於其各自廠商公開的報告分數。

這種對比口徑在開發者社群引發了一定爭議。有觀點認為,不同系統在不同環境下的測試條件難以完全對齊,直接比分數有失公允。但也有開發者指出,在缺乏統一實測環境的情況下,參考廠商報告數據是行業慣例。拋開與Fable和Mythos的爭議不談,Fugu Ultra在SWE-Bench Pro和TerminalBench 2.1上對GPT-5.5和Opus 4.8的超越,是實打實的同條件對比。這種超越並非因為Fugu的底層模型比GPT-5.5更聰明,而是因為RL Conductor在任務分解和專家調度上做得更精準。在AutoResearch、魔方還原、機械設計等需要多輪推理和驗證的實驗中,Fugu也持續展現出優勢。這說明在處理「漫長、混亂、多步驟」的真實世界工作流時,多智能體編排的架構確實比單體模型更具韌性。

真實開發場景實測:代碼審查與長會話穩定性

對於開發者和AI工具用戶而言,跑分只是參考,真正決定一個模型是否好用的,是它在真實工作場景中的表現。Fugu在發佈前進行了近500名早期用戶的Beta測試,這些用戶的回饋揭示了Fugu在實際應用中的獨特價值。

代碼審查是開發者最常使用的AI場景之一。傳統的單體模型在審查代碼時,往往只能發現表面的語法錯誤或常見的邏輯漏洞。而在Beta測試中,有開發者回饋,Fugu在代碼審查中表現出了異常的細緻,能夠找出深層次的架構Bug,而其他工具往往只能找出少數幾個表層問題。這種差異源於Fugu的架構。RL Conductor在接收到代碼審查任務後,可以分別調用擅長靜態分析的模型、擅長邏輯推理的模型和擅長安全審查的模型,對同一段代碼進行多角度交叉驗證。這種「專家會診」模式,自然比單一模型的「單打獨鬥」能發現更多隱藏問題。

另一個被高頻提及的優勢是長會話穩定性。在構建AI Agent產品時,開發者最頭疼的問題之一就是模型在長會話中的「人設漂移」。隨著對話輪數的增加,單體模型往往會忘記最初的設定,或者在指令遵循上出現偏差。有企業高管在測試後回饋,Fugu在長會話中的Persona(人設)異常穩定,幾乎不發生漂移。這是因為RL Conductor本身不負責維持長文本的記憶,它只負責在每一輪對話中,根據當前上下文,精準地選擇最合適的底層模型來生成回覆。這種「控制與生成分離」的架構,極大地提升了Agent在長時間運行中的穩定性。

在網路安全領域,Fugu也展現出了端到端的實戰能力。在測試中,Fugu能夠獨立完成從偵察、XSS/SQLi漏洞檢測到認證審查的全流程,並生成完整的滲透測試報告,且嚴格遵守不越界破壞系統的指令。這種複雜任務的完成度,依賴於RL Conductor對安全工具鏈和不同大模型能力的精準編排。

此外,Token效率也是Fugu的一大亮點。傳統大模型在處理複雜問題時,往往會生成冗長的思維鏈,消耗大量Token。而Fugu的RL Conductor通過精準路由,避免了無意義的長CoT消耗。官方及早期測試顯示,它能顯著降低無效Token的浪費。對於按Token計費的開發者來說,這不僅意味著成本降低,也意味著回應速度的提升。

底層依賴的軟肋:多智能體編排的代價

儘管Fugu在架構和跑分上表現亮眼,但作為一款面向實際工作的工具,它並非沒有軟肋。多智能體編排的架構在帶來性能突破的同時,也帶來了不可忽視的風險和限制。

最核心的問題是底層依賴風險。Fugu的智能體池高度依賴GPT、Claude、Gemini等美國大廠的底層API。雖然RL Conductor具備動態路由能力,可以在某一模型出現故障或限流時切換到其他模型,但這只是規避了單一供應商的風險,並沒有也無法脫離整個美國AI基礎設施生態。如果這些底層模型集體漲價、大規模限流或更改API條款,Fugu的成本結構和穩定性將受到直接衝擊。這種「寄居」於他人基礎設施之上的模式,在商業化和長期穩定性上存在天然脆弱性。

其次是延遲與成本結構的權衡。雖然RL Conductor通過精準路由節省了無效Token的消耗,但多智能體編排必然涉及多次API調用和模型間的通訊。對於需要極低延遲的即時互動場景,比如即時語音對話或高頻交易輔助,Fugu Ultra的「深度思考與調度」時間可能長於直接調用單體模型。在那些對回應速度要求極高的場景中,Fugu的架構優勢反而可能成為體驗的拖累。

此外,對比公平性的爭議也一直存在。如前所述,Fugu宣稱比肩Fable和Mythos,但後兩者並未進入Fugu的智能體池。在開發者社群中,有聲音質疑這種基於廠商報告數據的對比是否具有實際參考價值。畢竟,不同模型在不同任務分佈下的表現差異很大,簡單的總分對比可能掩蓋了具體的優劣勢。對於需要精確評估模型能力的開發者來說,缺乏同池實測的數據,意味著在選型時仍需保持謹慎。

不拼算力拼編排:日本大模型的非對稱突圍

跳出具體的產品測評,Fugu的誕生對日本大模型生態有著更深層的意味。在全球AI軍備競賽中,日本處於一個尷尬的位置。它既沒有美國那樣源源不斷的頂尖算力和前沿演算法積累,也沒有中國那樣龐大的數據池和激烈的市場競爭環境。更嚴峻的是,日本還面臨著美國前沿模型(如Fable/Mythos)的出口管制風險。在這種背景下,Sakana AI的「進化演算法」和「多智能體編排」路線,展現出一種資源受限國家的「非對稱突圍」邏輯。

日本本土並非沒有大模型廠商。NTT推出了tsuzumi,ELYZA、Rinna和LLM-jp等機構也在努力訓練本土語言模型。但這些廠商大多走的是「從頭訓練」的傳統路線,在參數規模和通用能力上,很難與中美頂尖模型抗衡。Sakana AI是其中唯一具有全球前沿影響力,且主打「非對稱架構」的實驗室。

Fugu的動態路由能力,本質上是在幫日本企業和機構建立「AI主權」(AI Sovereignty)。在算力受限的情況下,與其耗費巨資訓練一個各方面都不如GPT-5.5的千億參數模型,不如訓練一個聰明的7B「包工頭」。這個包工頭可以根據任務需求,靈活接入全球最好的模型。如果某一天某個美國模型受到出口管制或斷供,RL Conductor可以迅速將任務路由到其他可用的模型上,甚至接入日本本土的專用模型。這種架構使得日本在AI能力的使用上,獲得了一定程度的自主權和抗風險能力。

OmniTools在觀察全球AI工具生態時發現,大模型的能力正在逐漸拉平,競爭的主戰場正在從單純的參數堆砌轉向工具鏈與落地場景。Fugu的出現恰好印證了這一趨勢。它不再追求在單一模型上做到極致,而是追求在系統層面做到最優。這種思路對於算力和數據都不佔優的國家和地區,具有重要的借鑑意義。

當然,這種「非對稱突圍」也有其天花板。只要底層模型的核心技術仍掌握在少數巨頭手中,編排系統的能力上限就會被底層模型所限制。Fugu證明了7B模型可以成為優秀的指揮官,但它無法憑空創造出底層模型不具備的能力。日本大模型要真正實現突圍,除了在編排架構上創新,仍需在底層算力、核心演算法和高品質數據上持續投入。Fugu是一個精巧的系統級創新,但它並非萬能藥。對於開發者和企業用戶來說,Fugu提供了一個在複雜工程場景下極具競爭力的新選項,但在使用時,也需清醒認識其底層依賴的脆弱性和延遲成本的權衡。

分享至:

作者:OmniTools

本文為PANews入駐專欄作者的觀點,不代表PANews立場,不承擔法律責任。

文章及觀點也不構成投資意見

圖片來源:OmniTools如有侵權,請聯絡作者刪除。

關注PANews官方賬號,一起穿越牛熊
PANews APP
持倉榜一的地址近一個月內賣出約3.8兆枚SHIB,套現約2073萬美元
PANews 快訊