일본 AI 다크호스 등장: 7B 소형 모델이 Fable과 Mythos에 도전하는 방법

2026년 6월 22일, Sakana AI가 발표한 새로운 모델 Fugu가 AI 커뮤니티에 큰 파장을 일으켰습니다. 까다로운 SWE-Bench Pro 및 TerminalBench 벤치마크 테스트에서 Fugu Ultra는 각각 73.7점과 82.1점을 기록하며 GPT-5.5와 Claude Opus 4.8을 능가했고, 심지어 수출 규제 대상인 Fable 5 및 Mythos Preview와 대등한 수준이라고 주장했습니다. 놀랍게도 엔지니어링 및 추론 능력에서 정상에 오른 이 시스템의 핵심은 수천억 개의 매개변수를 가진 거대 모델이 아닌, 불과 7B 매개변수의 모델입니다. 이 모델은 스스로 작업을 수행하지 않고, '작업반장' 역할을 하며 전 세계 최고 수준의 대형 모델들을 동적으로调度합니다. 이러한 상식에 반하는 아키텍처는 '매개변수가 곧 정의'라는 통념을 깨뜨렸을 뿐만 아니라, 컴퓨팅 파워가 제한된 일본의 AI 돌파구 모색 경로를 보여줍니다.

7B 매개변수의 '작업반장': Fugu의 상식 파괴 아키텍처

Fugu의 독특함을 이해하려면 먼저 그 출신을 살펴봐야 합니다. Sakana AI는 Transformer 논문 공동 저자 Llion Jones와 전 Google 연구원 David Ha가 2023년 도쿄에서 설립했습니다. 이 회사는 태생부터 '자연에서 영감을 받은' 유전자를 지니고 있으며, 진화 알고리즘과 자연계의 집단 지성을 활용하여 AI 문제를 해결하는 데 주력하고 있습니다. 2025년, Sakana AI는 NVIDIA, Google 등 거대 기업으로부터 투자를 유치하며 기업 가치가 25억 달러를 넘어섰습니다. 하지만 거대 기업의 지원에도 불구하고 일본은 여전히 미국이나 중국과 같은 방대한 컴퓨팅 인프라와 데이터 풀을 자체적으로 보유하지 못하고 있습니다. 이러한 자원 제약 속에서 Sakana AI는 수천억 매개변수의 대형 모델과 정면 승부하는 대신 '오케스트레이션' 경로를 선택했습니다.

Fugu의 공식적인 포지셔닝은 "단일 기반 모델로서의 멀티 에이전트 오케스트레이션 시스템"입니다. 전통적인 AI 아키텍처에서 대형 모델은 '단일 거대 괴수'와 같아서, 사용자가 프롬프트를 입력하면 모델이 첫 번째 신경망 층부터 마지막 층까지 계산하여 결과를 출력합니다. 이 방식은 간단한 문제를 처리할 때는 매우 효율적이지만, 복잡한 다단계 엔지니어링 작업에 직면하면 종종 환각(hallucination)이나 논리적 단절이 발생합니다.

Fugu는 이 패러다임을 완전히 바꿔 놓았습니다. 그 핵심은 강화 학습으로 훈련된 7B 매개변수 모델로, RL Conductor라고 불립니다. 이 7B 모델 자체는 최종 답변을 직접 생성하지 않고 '작업반장' 역할을 수행합니다. 사용자가 단일 OpenAI 호환 API를 통해 작업을 제출하면, RL Conductor는 작업 유형을 동적으로 분석한 후 GPT-5, Gemini 3.1 Pro 또는 Claude Opus 4.8과 같은 전 세계 최고 수준의 모델들로 구성된 에이전트 풀에 하위 작업을 할당합니다. 이 모델은 이러한 모델들의 출력을 스케줄링, 검증 및 합성하여 최종적으로 다중 검증을 거친 결과를 제공합니다.

이 아키텍처의 이론적 기반은 ICLR 2026의 두 편의 논문, 즉 《TRINITY: An Evolved LLM Coordinator》와 《Learning to Orchestrate Agents in Natural Language with the Conductor》에서 비롯되었습니다. 이 논문들은 작은 매개변수 모델이 강화 학습을 통해 어떻게 대형 모델을 '지휘'할 수 있는지 상세히 설명합니다. 이는 Test-time scaling(테스트 시간 확장)의 패러다임을 변화시켰습니다. 과거에는 컴퓨팅 파워가 주로 모델 내부의 심층 추론, 즉 모델이 하나의 답을 '끈질기게 파고드는' 데 사용되었지만, 이제는 컴퓨팅 파워가 외부 스케줄링, 검증 및 합성에 사용됩니다. 전통적인 대형 모델이 만능형 단일 개체라면, Fugu는 전문가 팀입니다. 7B의 RL Conductor는 모델 매개변수 크기가 더 이상 능력을 결정하는 유일한 기준이 아니며, 도구와 외부 에이전트를 호출하는 방법을 아는 것만으로도 성능의 도약을 이룰 수 있음을 증명했습니다.

벤치마크 점수 뒤의 진실: Fable에 필적하고 GPT-5.5를 능가하다

Fugu가 센세이션을 일으킨 직접적인 원인은 까다로운 벤치마크 테스트 점수 때문입니다. AI 업계에서 벤치마크 점수는 모델 능력을 측정하는 중요한 기준이지만, 각 벤치마크 테스트의 중점은 완전히 다릅니다. Sakana AI가 선택한 SWE-Bench Pro와 TerminalBench 2.1은 모두 실제 엔지니어링 환경에 가까운 '난제'입니다.

SWE-Bench Pro는 소프트웨어 엔지니어링 능력에 초점을 맞춰, 모델이 실제 코드베이스에서 버그를 찾아 수정하도록 요구합니다. Sakana AI 콘솔에 공개된 데이터에 따르면, Fugu Ultra는 SWE-Bench Pro에서 73.7점을 기록했습니다. 이에 비해 Claude Opus 4.8은 69.2점, GPT-5.5는 58.6점, Gemini 3.1 Pro는 54.2점입니다. 시스템 조작 능력을 테스트하는 또 다른 지표인 TerminalBench 2.1에서 Fugu Ultra는 82.1점을 획득하여 GPT-5.5의 78.2점과 Opus 4.8의 74.6점을 넘어섰습니다. 이 두 테스트는 모델의 코드 생성 능력뿐만 아니라 다단계, 긴 체인의 작업에서 논리적 안정성과 도구 호출 능력을 평가합니다. Fugu Ultra의 우위는 복잡한 엔지니어링 문제를 처리할 때 단일 모델보다 중간에 붕괴되거나 목표에서 벗어나는 경우가 적다는 것을 의미합니다.

더욱 주목받는 것은 Fugu와 Fable 5 및 Mythos Preview의 비교입니다. Anthropic의 Fable 시리즈와 또 다른 최전선 연구소의 Mythos 시리즈는 현재 AI 추론 능력의 최고 수준을 대표합니다. 그러나 수출 규제를 받거나 완전히 공개되지 않아 이 두 모델은 Fugu의 에이전트 풀에 포함되지 않았습니다. Sakana AI는 공식적으로 Fugu Ultra가 엔지니어링 및 과학 벤치마크에서 Fable 5 및 Mythos Preview와 '대등하다'고 주장하지만, 이 비교는 동일한 풀에서 실측된 것이 아님을 분명히 해야 합니다. Fugu의 점수는 자체 시스템의 실제 실행 결과를 기반으로 한 반면, Fable과 Mythos의 데이터는 각 제조사가 공개한 보고서 점수를 기반으로 합니다.

이러한 비교 기준은 개발자 커뮤니티에서 어느 정도 논란을 불러일으켰습니다. 서로 다른 시스템의 테스트 조건을 완전히 일치시키기 어려우므로 단순히 점수를 비교하는 것은 불공평하다는 의견이 있습니다. 그러나 통일된 실측 환경이 부족한 상황에서 제조사 보고 데이터를 참고하는 것은 업계 관행이라고 지적하는 개발자들도 있습니다. Fable 및 Mythos와의 논란을 제쳐두더라도, Fugu Ultra가 SWE-Bench Pro와 TerminalBench 2.1에서 GPT-5.5와 Opus 4.8을 능가한 것은 확실한 동일 조건 비교입니다. 이러한 능가는 Fugu의 기본 모델이 GPT-5.5보다 더 똑똑하기 때문이 아니라, RL Conductor가 작업 분해 및 전문가 스케줄링을 더 정밀하게 수행하기 때문입니다. AutoResearch, 루빅스 큐브 맞추기, 기계 설계 등 여러 차례의 추론과 검증이 필요한 실험에서도 Fugu는 지속적으로 우위를 보였습니다. 이는 '길고, 혼란스럽고, 다단계적인' 실제 작업 흐름을 처리할 때 멀티 에이전트 오케스트레이션 아키텍처가 단일 모델보다 확실히 더 높은 복원력을 가짐을 보여줍니다.

실제 개발 현장 테스트: 코드 리뷰 및 긴 세션 안정성

개발자와 AI 도구 사용자에게 벤치마크 점수는 참고 사항일 뿐이며, 모델의 실제 유용성을 결정하는 것은 실제 작업 환경에서의 성능입니다. Fugu는 출시 전 약 500명의 얼리 어답터를 대상으로 베타 테스트를 진행했으며, 이들의 피드백은 실제 응용 분야에서 Fugu의 독특한 가치를 드러냈습니다.

코드 리뷰는 개발자가 가장 자주 사용하는 AI 시나리오 중 하나입니다. 기존의 단일 모델은 코드를 검토할 때 표면적인 구문 오류나 일반적인 논리적 허점만 발견하는 경우가 많았습니다. 그러나 베타 테스트에서 일부 개발자는 Fugu가 코드 리뷰에서 비정상적으로 세밀함을 보여 심층적인 아키텍처 버그를 찾아낼 수 있었지만, 다른 도구들은 대개 몇 가지 표면적인 문제만 찾아냈다고 피드백했습니다. 이러한 차이는 Fugu의 아키텍처에서 비롯됩니다. RL Conductor는 코드 리뷰 작업을 받은 후, 정적 분석에 능한 모델, 논리적 추론에 능한 모델, 보안 감사에 능한 모델을 각각 호출하여 동일한 코드에 대해 다각도의 교차 검증을 수행할 수 있습니다. 이러한 '전문가 협진' 모드는 단일 모델의 '단독 작업'보다 당연히 더 많은 숨겨진 문제를 발견할 수 있습니다.

자주 언급되는 또 다른 장점은 긴 세션 안정성입니다. AI 에이전트 제품을 구축할 때 개발자들이 가장 골치 아파하는 문제 중 하나는 긴 세션에서 모델의 '페르소나 표류' 현상입니다. 대화 턴이 증가함에 따라 단일 모델은 종종 초기 설정을 잊어버리거나 명령어 준수에 편차가 발생합니다. 한 기업 임원은 테스트 후 Fugu가 긴 세션에서 페르소나가 비정상적으로 안정적이며 거의 표류가 발생하지 않는다고 피드백했습니다. 이는 RL Conductor 자체가 긴 텍스트의 기억을 유지하는 역할을 하지 않고, 매 대화 턴마다 현재 컨텍스트에 따라 가장 적합한 기본 모델을 정밀하게 선택하여 응답을 생성하기 때문입니다. 이러한 '제어와 생성의 분리' 아키텍처는 장시간 실행 시 에이전트의 안정성을 크게 향상시킵니다.

사이버 보안 분야에서도 Fugu는 엔드 투 엔드 실전 능력을 보여주었습니다. 테스트에서 Fugu는 정찰, XSS/SQLi 취약점 탐지부터 인증 감사까지 전 과정을 독립적으로 완료하고 완전한 침투 테스트 보고서를 생성했으며, 시스템을 파괴하지 말라는 지시를 엄격히 준수했습니다. 이러한 복잡한 작업의 완성도는 RL Conductor가 보안 도구 체인과 다양한 대형 모델의 능력을 정밀하게 오케스트레이션한 데 달려 있습니다.

또한 토큰 효율성도 Fugu의 큰 장점입니다. 전통적인 대형 모델은 복잡한 문제를 처리할 때 종종 장황한 사고 연쇄(Chain of Thought)를 생성하여 많은 토큰을 소비합니다. 반면 Fugu의 RL Conductor는 정밀한 라우팅을 통해 무의미한 긴 CoT 소비를 방지합니다. 공식 및 초기 테스트 결과, 이는 무효 토큰 낭비를 현저히 줄일 수 있는 것으로 나타났습니다. 토큰 단위로 과금되는 개발자에게 이는 비용 절감뿐만 아니라 응답 속도 향상을 의미합니다.

기반 의존성의 약점: 멀티 에이전트 오케스트레이션의 대가

Fugu가 아키텍처와 벤치마크 점수에서 뛰어난 성과를 보였지만, 실제 작업을 위한 도구로서 약점이 없는 것은 아닙니다. 멀티 에이전트 오케스트레이션 아키텍처는 성능 향상을 가져오는 동시에 무시할 수 없는 위험과 한계를 수반합니다.

가장 핵심적인 문제는 기반 의존성 위험입니다. Fugu의 에이전트 풀은 GPT, Claude, Gemini 등 미국 대기업의 기본 API에 크게 의존합니다. RL Conductor는 동적 라우팅 기능을 갖추고 있어 특정 모델에 장애가 발생하거나 속도 제한이 걸릴 경우 다른 모델로 전환할 수 있지만, 이는 단일 공급업체의 위험을 회피할 뿐 미국 AI 인프라 생태계 전체를 벗어날 수는 없습니다. 만약 이러한 기본 모델들이 집단적으로 가격을 인상하거나, 대규모 속도 제한을 가하거나, API 약관을 변경한다면 Fugu의 비용 구조와 안정성은 직접적인 타격을 받을 것입니다. 이러한 타인의 인프라에 '기생'하는 모델은 상업화와 장기적 안정성 측면에서 본질적인 취약성을 지닙니다.

다음으로 지연 시간과 비용 구조 간의 균형 문제입니다. RL Conductor가 정밀한 라우팅을 통해 무효 토큰 소비를 절약하지만, 멀티 에이전트 오케스트레이션은 필연적으로 여러 번의 API 호출과 모델 간 통신을 수반합니다. 실시간 음성 대화나 고빈도 거래 보조와 같이 매우 낮은 지연 시간이 요구되는 실시간 상호작용 시나리오의 경우, Fugu Ultra의 '심층 사고 및 스케줄링' 시간이 단일 모델을 직접 호출하는 것보다 더 길 수 있습니다. 응답 속도가 극도로 중요한 시나리오에서는 Fugu의 아키텍처적 장점이 오히려 사용자 경험에 부담이 될 수 있습니다.

또한 비교 공정성에 대한 논란도 계속 존재합니다. 앞서 언급했듯이 Fugu는 Fable 및 Mythos와 대등하다고 주장하지만, 후자의 두 모델은 Fugu의 에이전트 풀에 포함되지 않았습니다. 개발자 커뮤니티에서는 이러한 제조사 보고 데이터 기반 비교가 실제 참고 가치가 있는지 의문을 제기하는 목소리가 있습니다. 결국, 서로 다른 모델은 작업 분포에 따라 성능 차이가 크기 때문에 단순한 총점 비교는 구체적인 장단점을 가릴 수 있습니다. 모델 능력을 정밀하게 평가해야 하는 개발자에게 동일 풀 실측 데이터의 부재는 선택 시 여전히 신중을 기해야 함을 의미합니다.

컴퓨팅 파워 대신 오케스트레이션: 일본 대형 모델의 비대칭적 돌파구

구체적인 제품 평가를 넘어, Fugu의 탄생은 일본 대형 모델 생태계에 더 깊은 의미를 지닙니다. 글로벌 AI 군비 경쟁에서 일본은 난처한 위치에 있습니다. 미국처럼 끊임없이 공급되는 최고 수준의 컴퓨팅 파워와 최첨단 알고리즘 축적도 없고, 중국처럼 방대한 데이터 풀과 치열한 시장 경쟁 환경도 없습니다. 더욱 심각한 것은 일본이 미국의 최첨단 모델(예: Fable/Mythos)에 대한 수출 규제 위험에 직면해 있다는 점입니다. 이러한 배경 속에서 Sakana AI의 '진화 알고리즘'과 '멀티 에이전트 오케스트레이션' 노선은 자원이 제한된 국가의 '비대칭적 돌파구' 논리를 보여줍니다.

일본 내에 대형 모델 제조사가 없는 것은 아닙니다. NTT는 tsuzumi를 출시했고, ELYZA, Rinna, LLM-jp 등의 기관들도 자국어 모델 훈련에 힘쓰고 있습니다. 그러나 이러한 제조사들은 대부분 '처음부터 훈련'하는 전통적인 경로를 따르고 있어, 매개변수 규모와 범용 능력 면에서 미국과 중국의 최고 모델들과 경쟁하기 어렵습니다. Sakana AI는 그중 유일하게 글로벌 최전선 영향력을 가지며 '비대칭 아키텍처'를 주력으로 하는 연구소입니다.

Fugu의 동적 라우팅 능력은 본질적으로 일본 기업과 기관이 'AI 주권'(AI Sovereignty)을 구축하도록 돕는 것입니다. 컴퓨팅 파워가 제한된 상황에서 모든 면에서 GPT-5.5보다 못한 수천억 매개변수 모델을 훈련하는 데 막대한 비용을 쏟기보다, 똑똑한 7B '작업반장'을 훈련하는 것이 낫습니다. 이 작업반장은 작업 요구에 따라 전 세계 최고의 모델에 유연하게 접근할 수 있습니다. 만약 언젠가 특정 미국 모델이 수출 규제를 받거나 공급이 중단되면, RL Conductor는 신속하게 작업을 다른 사용 가능한 모델로 라우팅하거나 심지어 일본 자국의 특화 모델에 연결할 수 있습니다. 이러한 아키텍처는 일본이 AI 능력 사용에 있어 일정 수준의 자율성과 위험 대응 능력을 확보하게 합니다.

OmniTools가 글로벌 AI 도구 생태계를 관찰한 결과, 대형 모델의 능력은 점차 평준화되고 있으며 경쟁의 주요 무대는 단순한 매개변수 축적에서 도구 체인과 실제 적용 시나리오로 이동하고 있습니다. Fugu의 등장은 이러한 추세를 정확히 뒷받침합니다. 이는 더 이상 단일 모델에서 극한을 추구하지 않고 시스템 수준에서 최적을 달성하는 것을 추구합니다. 이러한 사고방식은 컴퓨팅 파워와 데이터 측면에서 모두 불리한 국가와 지역에 중요한 시사점을 제공합니다.

물론 이러한 '비대칭적 돌파구'에도 한계는 있습니다. 기본 모델의 핵심 기술이 여전히 소수 거대 기업의 손에 있는 한, 오케스트레이션 시스템의 능력 상한선은 기본 모델에 의해 제한될 수밖에 없습니다. Fugu는 7B 모델이 훌륭한 지휘관이 될 수 있음을 증명했지만, 기본 모델이 갖추지 못한 능력을 무에서 창조할 수는 없습니다. 일본 대형 모델이 진정한 돌파구를 마련하려면 오케스트레이션 아키텍처의 혁신 외에도 기반 컴퓨팅 파워, 핵심 알고리즘 및 고품질 데이터에 대한 지속적인 투자가 필요합니다. Fugu는 정교한 시스템 수준의 혁신이지만 만능 해결책은 아닙니다. 개발자와 기업 사용자에게 Fugu는 복잡한 엔지니어링 시나리오에서 매우 경쟁력 있는 새로운 옵션을 제공하지만, 사용 시 그 기반 의존성의 취약성과 지연 시간 비용 간의 균형을 명확히 인식해야 합니다.