1.6조 파라미터와 캐시 무료: 메이투안 LongCat-2.0의 에이전트 비용 경제학 분석

2026년 4월 말, "Owl Alpha"라는 익명의 모델이 세계 최대 대규모 모델 집계·배포 플랫폼 OpenRouter에 조용히 등장했다. 공식 발표도, 미디어 설명회도 없었고, 개발팀 정보조차 전혀 공개되지 않았다. 하지만 이후 약 두 달 동안 이 신비로운 모델은 놀라운 처리량을 앞세워 플랫폼 호출량 상위권으로 빠르게 올라섰다. VentureBeat에 따르면, 익명 테스트 기간 중 이 모델의 월간 토큰 처리량은 약 10.1조(10.1 trillion)에 달했으며, 일평균 5,590억 토큰을 처리해 전월 대비 242% 증가했다. 6월 30일 메이퇀(Meituan)이 LongCat-2.0을 공식 출시하면서, 5만 장의 국산 GPU로 훈련된 1.6조 파라미터 규모의 이 대형 모델이 비로소 베일을 벗었다. 메이퇀 공식 공지에서 Owl Alpha는 LongCat-2.0의 프리뷰 버전임을 확인했으며, 현재 월간 호출량 기준 OpenRouter 전 세계 상위 3위 안에 든다고 밝혔다.

LongCat-2.0의 MOPD 다중 전문가 융합 아키텍처 개요도 (출처: longcatai.org)

프리뷰 버전 모델이 해외 개발자 플랫폼에서 이렇게 높은 호출량을 기록할 수 있었던 것은 단일 요인 덕분이 아니라 기술 아키텍처와 배포 전략이 함께 작용한 결과다. 그리고 이 모델 이전에도 즈푸(Zhipu)부터 샤오미(Xiaomi)까지, 중국 대형 모델들은 정식 출시 전에 OpenRouter를 통해 '은밀한 실전 훈련'을 하는 데 열중하는 모습을 보였다.

Owl Alpha의 두 달: 익명 모델이 어떻게 OpenRouter 3위권에 진입했을까?

LongCat-2.0의 높은 호출량을 이해하려면 먼저 현재 대형 모델 생태계에서 OpenRouter가 맡고 있는 역할을 이해해야 한다. 개발자 입장에서 OpenRouter는 전 세계 수십 개 업체의 수백 개 모델에 접근할 수 있는 통합 API 인터페이스를 제공한다. 개발자들은 모델을 선택할 때 동일한 프롬프트에서 속도, 품질, 가격을 비교하는 경우가 많다. 새로운 모델이 출시되었을 때 동일 가격대 모델을 뛰어넘는 성능을 보이거나 매우 파괴적인 가격을 제시하면, 개발자 커뮤니티의 입소문이 빠르게 퍼진다.

Owl Alpha의 OpenRouter 상 폭발적 성장은 바로 이 논리에 따른 것이다. 메이퇀 공식 공지에 따르면 Owl Alpha는 Hermes(에이전트 작업 공간), Claude Code, OpenClaw 등 3대 월간 호출량 시나리오에서 각각 1위, 2위, 3위를 기록했다. 이 세 가지 시나리오의 공통된 특징은 에이전트 기능에 대한 의존도가 높다는 점, 즉 모델이 코드 저장소를 반복적으로 읽고, 여러 차례의 도구 호출과 긴 컨텍스트 추론을 수행해야 한다는 점이다.

높은 호출량은 우연이 아니다. 모델 자체의 파라미터 규모뿐 아니라 특정 시나리오에 대한 적합성과 매우 공격적인 가격 전략과도 관련이 깊다. 익명 테스트 기간 동안 Owl Alpha는 국산 연산 인프라 배경을 노출하지 않은 채 오로지 기술 성능과 가격만으로 개발자들을 사로잡았다. VentureBeat가 보도한 월 10.1조 토큰 처리량은 언론 추정치이며 OpenRouter 공식 측에서 정확한 수치를 공개하지는 않았지만, 이 데이터는 개발자 커뮤니티에서 이 모델이 실제로 매우 높은 채택률을 기록했음을 충분히 말해 준다. 이러한 채택률은 마케팅 예산으로 산 것이 아니라 실제 API 호출을 통해 쌓아 올린 것이다.

코드 저장소를 캐시에 담다: LongCat-2.0이 에이전트 과금 논리를 다시 쓰는 방법

LongCat-2.0이 이렇게 막대한 호출량을 감당할 수 있는 핵심은 기술 아키텍처와 비즈니스 전략의 깊은 결합에 있다. 메이퇀 공식 발표에 따르면 LongCat-2.0의 총 파라미터 수는 1.6조(1.6T)이며, 평균 활성 파라미터는 약 480억(48B), 동적 범위는 330억~~560억(33B~~56B) 사이에서 조정된다. 또한 네이티브로 100만 토큰의 초장문 컨텍스트를 지원한다. 이러한 1.6T 총 파라미터와 48B 활성 파라미터의 MoE(혼합 전문가) 아키텍처는 현재 대형 모델이 성능과 비용 사이에서 균형을 찾는 주류 선택지다.

기술 아키텍처 측면에서 LongCat-2.0은 네 가지 핵심 혁신을 통합했으며, 각 혁신은 에이전트 개발의 구체적인 문제점을 정조준한다.

첫째는 메모리 월(memory wall) 문제를 해결하는 LSA(LongCat Sparse Attention) 희소 어텐션이다. 100만 토큰의 초장문 컨텍스트를 처리할 때 기존 어텐션 메커니즘의 연산량은 제곱으로 증가해 메모리 대역폭의 심각한 병목을 일으킨다. LSA는 Streaming-aware Indexing을 통해 파편화된 메모리 접근을 연속 블록 읽기로 전환하고, Cross-Layer Indexing으로 레이어 간 어텐션 인덱스를 재사용하며, Hierarchical Indexing으로 거친 단계에서 세밀한 단계로 2단계 스크리닝을 수행하여 장문 텍스트 처리의 연산량을 제곱 수준에서 선형 수준으로 낮춘다. 이를 통해 에이전트가 대규모 코드 저장소를 읽을 때 직면하는 메모리 월 문제를 해결한다.

메모리 월을 해결한 후 다음 과제는 연산 자원 할당의 정밀화다. MoE 아키텍처에서 모든 토큰이 복잡한 연산을 필요로 하는 것은 아니다. 구두점, 기능어 같은 단순한 토큰이 복잡한 전문가 네트워크로 라우팅되면 연산 자원을 낭비하게 된다. LongCat-2.0은 전문가 풀에 '제로 연산 전문가(Zero-Compute Expert)'를 추가하여, 이 전문가로 라우팅된 토큰은 입력을 그대로 반환하고 연산 리소스를 소모하지 않는다. 시스템은 PID 컨트롤러를 통해 전문가 편향을 동적으로 조정하여 평균 활성 파라미터를 목표 범위 내로 유지한다. 이는 마치 고속도로에 급행 차선을 설치해 단순한 작업은 빠르게 통과시키고, 복잡한 재귀 추론을 위해 연산력을 남겨두는 것과 같다.

연산 자원 할당을 최적화하면 통신 지연이 다음으로 극복해야 할 병목 지점이 된다. ScMoE(Shortcut-connected MoE)는 크로스 레이어 숏컷 연결을 사용하여 앞선 블록의 고밀도 FFN 연산과 현재 MoE 레이어의 디스패치/컴바인 통신을 동시에 병렬 처리한다. 이러한 파이프라인 설계로 이론적 TPOT(Time-Per-Output-Token, 출력 토큰당 소요 시간)이 거의 50% 감소하여 모델의 응답 속도를 직접적으로 향상시킨다. 이는 빈번한 상호작용이 필요한 에이전트 시나리오에서 특히 중요하다.

마지막으로 작업 스케줄링 차원의 MOPD(Multi-Teacher Optimization via Mixture of Specialized Experts)다. 파인 튜닝(후학습) 단계에서 LongCat-2.0은 최적화를 Agent, Reasoning, Interaction 세 그룹의 전담 전문가 클러스터로 분리했다. Agent Experts는 도구 호출과 여러 차례의 API 매개변수 파싱을 담당하고, Reasoning Experts는 다중 추론, 논리 및 수학적 추론을 맡으며, Interaction Experts는 지시 사항 준수와 안전 가드레일을 책임진다. 추론 시에는 게이트 네트워크가 작업 유형에 따라 동적으로 스케줄링한다. 즉, 개발자가 모델을 호출해 코드 리뷰를 수행할 때는 Agent 전문가가 활성화되고, 수학적 추론을 진행할 때는 Reasoning 전문가가 활성화된다. 이러한 분업을 통해 특정 작업에서 모델의 전문성이 향상된다.

그러나 기술 아키텍처는 비용 절감의 기반일 뿐, 개발자의 손익 계산 방식을 진정으로 바꾼 것은 가격 전략이다. LongCat API 가격 페이지에 따르면 표준 가격은 입력 100만 토큰당 ¥5, 출력 100만 토큰당 ¥20이다. 하지만 한정 기간 할인 중에는 입력 $0.30/100만 토큰, 출력 $1.20/100만 토큰으로 인하된다. 더욱 파격적인 것은 '캐시 적중 무료' 메커니즘이다.

에이전트 개발에서는 모델이 동일한 코드 저장소나 시스템 프롬프트를 반복적으로 읽어야 한다. 전통적인 과금 모델에서는 이러한 중복 입력 토큰에 대해 매번 비용이 발생하여, 에이전트 운영 비용이 상호작용 라운드 수에 따라 선형적으로 증가한다. LongCat-2.0의 캐시 적중 무료 메커니즘은 입력의 접두사 부분이 캐시에 적중되기만 하면 비용을 부과하지 않는다는 뜻이다. 이 설계는 에이전트 시나리오의 비용 고통 지점을 정확히 겨냥한 것으로, 많은 개발자들에게 '에이전트 비용 경제학을 바꾸는' 혁신으로 평가받고 있다.

LongCat-2.0의 가성비를 보다 직관적으로 이해하기 위해, 아래에 공개된 생태계 신호를 바탕으로 정리한 비교표를 참고할 수 있다.

모델	업체	SWE-bench Pro 점수	출력 표준 가격 ($/M tokens)	출력 기간 한정 가격 ($/M tokens)	오픈소스 라이선스	데이터 범위 설명
Claude Opus 4.8	Anthropic	69.2	$25.00	없음	비공개	업체 자체 보고/제3자 집계
GLM-5.2	즈푸(Zhipu)	62.1	$4.40	없음	MIT	업체 자체 보고/제3자 집계
Qwen3.7 Max	알리바바	60.6	$3.75	없음	일부 오픈소스	업체 자체 보고/제3자 집계
LongCat-2.0	메이투안	59.5	$2.95	$1.20	MIT	업체 자체 보고, Scale AI 표준화 공개 목록 미포함
MiniMax M3	MiniMax	59.0	$2.40	없음	오픈소스	업체 자체 보고/제3자 집계
GPT-5.5	OpenAI	58.6	$30.00	없음	비공개	업체 자체 보고/제3자 집계
DeepSeek V4 Pro Max	DeepSeek	55.4	$0.87	없음	MIT	업체 자체 보고/제3자 집계

주의할 점으로, 상기 표의 SWE-bench Pro 점수는 모두 각 제조사가 자체 보고하거나 제3자가 집계한 데이터로, 모델별로 테스트 배치나 평가 조건이 다를 수 있어 횡단 비교는 참고용으로만 활용해야 합니다. 또한, LongCat-2.0의 59.5점은 메이퇀이 자체 보고한 수치이며, 본문 작성 시점까지 Scale AI의 표준화 공개 리더보드에는 진입하지 못했습니다. Scale 표준화 공개 리더보드에서는 GPT-5.4 (xHigh)가 59.1%의 표준화 점수로 선두를 달리고 있으며, 표준화 점수는 대체로 제조사 자체 보고 점수보다 10~30점 낮게 나타납니다. 그럼에도 불구하고, LongCat-2.0은 기간 한정 할인 가격인 백만 토큰당 1.20달러에 캐시 무료 메커니즘을 더해, 오픈소스 모델 중에서의 가격 파괴력이 여전히 돋보입니다.

벤치마크 3위와 '기대 이하의 코딩': LongCat-2.0의 실제 성능 한계

제조사가 발표한 벤치마크 점수는 종종 완벽한 그림을 그려내지만, 실제 개발자들의 체험은 훨씬 복잡합니다. LongCat-2.0은 SWE-bench Pro에서 59.5점, SWE-bench Multilingual에서 77.3점, Terminal-Bench 2.1에서 70.8점을 기록했습니다. 이 데이터들은 해당 모델이 소프트웨어 엔지니어링 벤치마크에서 오픈소스 모델 중 최상위권임을 보여줍니다.

그러나 Reddit의 r/LocalLLaMA 커뮤니티에서는 개발자들의 피드백이 다른 관점을 제시하고 있습니다. 한 사용자는 테스트 후 "It's not good in coding, very good in reviews though. Instruction following is also pretty good. A little bit of a waste with that parameter..." (코딩 능력은 기대 이하지만, 코드 리뷰는 아주 훌륭합니다. 지시 이행 능력도 꽤 좋습니다. 이 정도 파라미터 규모로는 다소 아쉽네요...)라고 평했습니다. 이는 모델이 범용 코드 생성 작업보다는 코드 리뷰나 지시 이행 작업에서 더 뛰어난 성능을 발휘할 수 있음을 시사합니다. r/SillyTavernAI 커뮤니티에서도 일부 사용자가 해당 모델이 롤플레잉 시나리오에서 사용자의 말을 대신하는 경향이 있어, 상호작용 경험에 결함이 있다고 피드백했습니다.

이러한 벤치마크 점수와 실제 체험 간의 괴리는 대형 모델 업계에서 드문 일이 아닙니다. 제조사가 자체 보고하는 점수는 일반적으로 특정 테스트 환경과 프롬프트 하에서 획득되는 반면, 개발자들의 실제 사용 시나리오는 훨씬 다양하고 복잡합니다. LongCat-2.0은 MOPD 아키텍처 내에 Agent, Reasoning, Interaction이라는 세 개의 특화 전문가 그룹을 별도로 배치했는데, 이로 인해 모델이 특정 작업에서는 우수하지만 범용 프로그래밍 생성에서는 여전히 한계를 보일 수 있습니다.

또한, LongCat-2.0의 오픈소스 약속은 아직 시간이 지나봐야 검증될 수 있습니다. 6월 30일 발표일 기준, HuggingFace 페이지에는 모델 가중치가 "coming soon"으로 표시되어 있으며 아직 다운로드가 제공되지 않았습니다. 공식적으로 MIT 오픈소스 라이선스를 채택해 기업 사용자에게 우호적이며 폐쇄형 상업 제품에 내장할 수 있다고 발표했지만, 실제 가중치가 공개되기 전까지 개발자들은 관망하는 태도를 취하고 있습니다. 동시에, 공개된 100만 토큰 초장문 컨텍스트의 실제 정보 유지율 또한 Needle-in-a-Haystack 등의 테스트를 통한 제3자 독립 검증 데이터가 부족합니다. 이러한 한계들은 LongCat-2.0의 실제 성능 경계가 더욱 광범위한 개발자들의 실무 속에서 규명되어야 함을 의미합니다.

Pony에서 Owl까지: 중국산 대형 모델은 왜 해외 '선행 공개'에 열중할까?

LongCat-2.0이 OpenRouter 상에서 Owl Alpha를 통해 익명 테스트를 진행한 것은 고립된 사건이 아닙니다. 2026년 이후의 업계 동향을 살펴보면, 중국산 대형 모델이 정식 출시 전에 OpenRouter에서 익명으로 프리뷰를 진행하는 것에 점점 더 적극적이라는 뚜렷한 추세를 발견할 수 있습니다.

2026년 2월, OpenRouter에는 익명 모델 "Pony Alpha"가 등장했으며, 이후 증권시보(证券时报) 등 언론을 통해 그 실체가 즈푸AI(Zhipu AI)의 GLM-5임이 확인되었습니다. 이 모델은 코딩과 Agent 최적화 측면에서 두각을 나타냈으며 무료 호출을 제공했습니다. 이어 3월에는 익명 모델 "Hunter Alpha"가 등장했고, 샤오미의 MiMo-V2-Pro로 확인되었으며, 1T 파라미터와 1M 컨텍스트를 갖추고 있었습니다. 4월 말, Owl Alpha가 등장했으며, 바로 메이퇀의 LongCat-2.0입니다. 이러한 사례들은 중국산 대형 모델의 '은밀한 실전 훈련'이라는 뚜렷한 타임라인을 구성합니다.

왜 중국산 대형 모델들은 해외 플랫폼에서 익명으로 '선행 공개'를 택하는 걸까요?

첫째, 이는 효율적인 콜드 스타트 및 진정한 피드백 획득 전략입니다. 중국 내 시장에서 대형 모델 출시는 종종 높은 언론의 관심과 파라미터 경쟁에 대한 압박을 수반합니다. 제조사가 공식 발표를 하는 순간, 즉시 모든 경쟁 제품과의 현미경적 비교 대상이 됩니다. 반면 OpenRouter에서 익명으로 공개하면 브랜드의 후광과 여론의 부담을 벗고, 순수하게 기술적 성능과 가격만으로 전 세계 개발자들을 상대할 수 있습니다. 개발자 커뮤니티의 피드백은 진실되고 냉혹합니다. 그들은 단지 호출이 원활한지, 가격이 저렴한지, 출력 품질이 높은지에만 관심을 기울입니다. 이러한 '블라인드 테스트' 환경은 제조사에게 가장 진정성 있는 극한의 처리량 피드백과 버그 발견 기회를 제공할 수 있습니다.

둘째, 이는 인프라 안정성에 대한 실전 검증입니다. LongCat-2.0은 전 과정에 걸쳐 5만 장의 중국산 AI ASIC 카드를 기반으로 전체 학습 및 추론을 완료했습니다. 이 정도 규모의 중국산 컴퓨팅 클러스터가 일일 1T 토큰 이상의 안정적 처리량이라는 실전 압박 속에서 복구 불가능한 loss 스파이크나 통신 병목 현상이 발생하는지 여부는, 실제 전 세계의 트래픽 쇼크를 통해서만 검증 가능합니다. OpenRouter는 기성의 높은 동시 접속 트래픽 진입로를 제공하여, 메이퇀이 자사의 중국산 컴퓨팅 클러스터의 한계 수용 능력을 테스트하는 데 도움을 줍니다.

마지막으로, 객관적인 시장 기회의 창이 존재한다는 점도 이 전략을 촉진했습니다. 미국의 수출 통제가 일부 폐쇄형 모델(예: Claude Fable 5/Mythos 5, GPT-5.6)의 대외 공급을 제한함으로써, 결과적으로 중국산 모델이 해외 시장에 진입할 수 있는 여지를 남겼습니다. OpenRouter의 익명 테스트를 통해, 중국산 모델들은 고성능이면서 저렴한 모델을 찾는 일부 개발자들의 수요 공백을 신속하게 메워 사용자 기반과 평판을 축적하고, 추후 정식 출시 및 상업화를 위한 기반을 다질 수 있습니다.

Pony부터 Hunter, 그리고 Owl에 이르기까지, OpenRouter 상에서의 중국산 대형 모델의 '은밀한 실전 훈련'은 우연한 시도에서 업계 공통의 콜드 스타트 전략으로 진화했습니다. 개발자들에게 이는 실제 트래픽으로 검증된 모델을 더 빨리 접하고, 더욱 경쟁력 있는 가격으로 개발 테스트를 진행할 수 있음을 의미합니다. 업계의 관점에서 보면, 실제 API 호출량에 기반한 이러한 콜드 스타트 모델은 점차 단일한 권위 있는 리더보드를 대체하며, 대형 모델 인프라의 안정성과 실제 역량을 검증하는 새로운 기준으로 자리잡고 있습니다.