5월 27일, 샤오미는 딥시크 V4 Pro를 겨냥해 MiMo-V2.5 Pro API의 가격을 최대 99%까지 인하하는 영구 가격 인하를 발표했습니다. 거의 동시에 지푸는 2026년 1분기에 누적 83%의 가격 인상을 단행했고, CEO는 "가격 인상에도 불구하고 공급이 수요를 따라가지 못하고 있으며, 문의 전화가 400% 증가했다"고 공개적으로 밝혔습니다. 한쪽은 거의 최저가 수준의 가격 전략을 펼치는 반면, 다른 한쪽은 시장 추세에 반하여 가격을 인상하면서도 두 자릿수 성장을 달성하는 전략을 펼치고 있습니다. 이 두 전략에는 완전히 다른 가격 책정 논리가 숨어 있습니다. 국내 대형 모델 API의 가격 책정은 '성능 기반 가격'에서 '경쟁 기반 가격'으로 전환되었습니다. 이번 집중적인 가격 인하의 원가 논리는 무엇일까요? 가격이 인하된 모델과 그렇지 않은 모델의 실제 원가 차이는 얼마나 될까요? 제품 선정 기준 자체가 바뀐 것일까요?
샤오미 미모의 가격 인하 폭은 단순히 "99%"라는 수치에 그치지 않습니다.
이번 가격 인하의 핵심 내용을 자세히 살펴보겠습니다.
샤오미 MiMo의 공식 발표에 따르면, MiMo-V2.5 시리즈 API가 5월 27일부터 최대 99% 할인된 가격으로 영구적으로 제공됩니다. 컨텍스트 길이에 따른 차등 요금제는 폐지되고, 기존 구독 한도는 완전히 초기화됩니다. MiMo-V2.5-TTS 모델은 현재 한정 기간 동안 무료로 제공됩니다.
가격 기준과 관련하여 개발자 커뮤니티 내 논의에서는 MiMo-V2.5 Pro가 DeepSeek V4 Pro와 동일한 가격으로, 기본 MiMo-V2.5 버전은 DeepSeek V4 Flash와 동일한 가격으로 책정될 것이라는 의견이 일관되게 나타나고 있습니다. DeepSeek 공식 API 문서를 살펴보면 DeepSeek V4 Pro의 입력 가격은 백만 토큰당 3위안, 출력 가격은 백만 토큰당 6위안, 캐시 적중 비용은 백만 토큰당 0.025위안입니다. 따라서 MiMo V2.5 Pro 역시 이와 유사한 가격 체계 내에서 책정될 가능성이 높습니다.
"99%"라는 수치는 합리적으로 해석해야 합니다. 이는 모든 시나리오에서 90% 할인이 적용되는 것이 아니라, 특정 장기 컨텍스트 시나리오에서 기존 가격 대비 새로운 가격으로의 최대 할인율을 의미합니다. 진정으로 주목할 만한 점은 할인율이 아니라 가격 인하 방식입니다. 샤오미는 DeepSeek을 직접 가격 기준으로 사용하여, 컨텍스트 창 길이에 따라 요금을 차등 적용하던 기존의 복잡한 청구 규칙을 없앴습니다. 개발자들은 더 이상 비용 절감을 위해 긴 텍스트를 수동으로 잘라낼 필요가 없습니다. 이러한 투명한 청구 방식은 단순한 가격 인하보다 훨씬 더 큰 가치를 지닐 수 있습니다.
샤오미의 가격 전략은 딥시크(DeepSeek)를 직접적으로 겨냥하여 동일한 가격대에 제품을 출시하는 것입니다. 두 회사 모두 MoE 아키텍처(총 파라미터 1.02T, 활성화 파라미터 42B에 불과한 MiMo-V2.5)를 사용하고, OpenAI API 형식과 호환되며, 이제 가격이 완전히 동일해져서 개발자들이 두 제품 간에 사실상 추가 비용 없이 전환할 수 있게 되었습니다.
가격 인하를 단행하는 기업들의 전반적인 상황: 누가 가격 인하에 동참하고 있으며, 그 이면의 논리는 무엇인가?
샤오미가 가격을 인하한 첫 번째 기업도 아니고, 마지막 기업도 아닐 것입니다. 가격을 인하하는 더 넓은 기업들을 살펴보면 매우 분명한 공통적인 특징이 나타납니다.
DeepSeek은 이번 라운드의 가격 기준을 정했습니다. 5월 31일부로 V4 Pro의 25% 할인 행사가 종료되고, 정식 가격은 기존 가격의 1/4인 3위안(입력)과 6위안(출력)으로 책정됩니다. 이는 일시적인 프로모션이 아니라 장기적인 가격 정책입니다.
바이트댄스의 더우바오(Doubao) 가격 또한 매우 낮게 유지되고 있습니다. 깃허브 LLM-Price 가격 추적 프로젝트의 데이터에 따르면, 더우바오 시드 2.0 프로(Doubao-Seed-2.0-Pro)는 백만 토큰당 3.2위안을 투자받아 백만 토큰당 16위안을 거래합니다. 중국산업뉴스네트워크(China Industrial News Network)에 따르면, 바이트댄스의 일일 토큰 사용량은 120조 개를 넘어섰는데, 이는 2024년 5월의 1,000배가 넘는 수치입니다.
알리바바 클라우드의 통이첸원(Tongyi Qianwen)도 주요 업체 중 하나입니다. 알리바바 클라우드가 공개한 프로스트앤설리번(Frost & Sullivan) 분석 보고서에 따르면, 2025년 하반기 중국 내 대규모 기업용 토큰의 일평균 총 소비량은 37조 개에 달할 것으로 예상되며, 알리바바 첸원이 32.1%를 차지하며 1위를 기록할 것으로 전망됩니다.
가격 인하를 추구하는 기업들의 공통적인 특징은 대기업 생태계의 지원을 받는다는 점입니다. 알리바바의 첸원(Qianwen)은 알리바바 클라우드와 연계되어 있고, 바이트댄스의 더우바오(Doubao)는 볼케이노 엔진(Volcano Engine)의 컴퓨팅 파워 소비를 위한 진입점이며, 샤오미의 미모(MiMo)는 단말 기기와 개발자 생태계를 겨냥합니다. 이러한 대기업들에게 API 자체는 수익원이 아니라 고객 확보 수단입니다. 진정한 사업은 클라우드 컴퓨팅, 하드웨어 판매, 광고, 그리고 단말 생태계에서 이루어집니다. API 가격을 한계비용에 가깝게 책정하는 것은 더 큰 사업 부문의 성장을 견인하는 한 수익성이 있습니다.
하지만 간과하기 쉬운 문제가 있습니다. 가격 인하 후에도 무료 또는 저가 패키지의 동시 접속 QPS 제한 및 SLA 보장에는 숨겨진 축소가 없다는 점입니다. 공식 문서에는 이러한 내용이 명시적으로 공개되어 있지 않습니다. 기업은 솔루션을 선택할 때 단가만 고려해서는 안 되며, 높은 동시 접속 환경에서의 가용성이 저하되었는지 여부도 함께 고려해야 합니다.
가격 인상의 역설적인 이유: 지푸와 키미는 왜 가격을 내리는 대신 올렸을까?
가격 인하를 추구하는 진영과는 대조적으로, 다크 사이드 오브 더 문(Dark Side of the Moon)의 지푸와 키미가 있습니다.
CBN에 따르면, Zhipu의 API 가격은 2026년 1분기에 누적 83% 상승했으며, CEO는 "가격 인상에도 불구하고 공급이 수요를 따라가지 못하고 있으며, 호출량은 400% 증가했다"고 명시적으로 밝혔습니다. Kimi의 Moonshot V1 모델은 현재 입력 시 백만 토큰당 10위안, 출력 시 백만 토큰당 30위안으로 책정되어 있으며, 이는 DeepSeek/MiMo의 유사 제품보다 3~4배 높은 가격입니다.
가격 인상은 임의적인 것이 아니었습니다. OpenRouter의 데이터에 따르면 2026년 2월 중국에서 호출된 AI 모델 수가 처음으로 미국을 넘어섰으며, 상위 5개 모델 중 4개가 Zhipu와 Kimi를 포함한 중국산 모델이었습니다. Zhipu의 GLM-5 시리즈는 복잡한 에이전트 및 코드 생성 시나리오에서 탁월한 성능을 발휘하며, Kimi K2.5의 높은 가격은 긴 컨텍스트 처리 능력과 추론 기능으로 정당화됩니다.
다소 직관에 반하는 비즈니스 논리가 있습니다. 에이전트 시대에는 가장 낮은 단가가 반드시 가장 낮은 전체 비용을 의미하는 것은 아닙니다. 복잡한 작업 시나리오에서는 모델의 성공률이 총 토큰 소비량을 직접적으로 결정합니다. 단가가 높더라도 첫 시도에 정확한 코드를 출력하는 모델이, 단가가 낮더라도 3~5번의 반복적인 디버깅과 재시도를 필요로 하는 모델보다 궁극적으로 더 적은 토큰을 소비할 수 있습니다. Zhipu의 "가격 인상에도 불구하고 공급 부족이 발생하는" 이유 중 하나는 기업 고객들이 전체 비용을 계산해 본 결과, 더 비싼 모델이 실제로는 전체 비용이 더 낮다는 것을 알게 되기 때문입니다.
하지만 독립적인 제3자 평가 데이터가 없는 상황에서 특정 시나리오에서 GLM-5와 DeepSeek 또는 MiMo의 실제 성공률 및 토큰 소비량 차이에 대해 확정적인 결론을 내리는 것은 시기상조입니다. 기업은 벤치마크 순위나 공급업체의 마케팅 주장에만 의존하기보다는 실제 업무에 대한 A/B 테스트를 실시하여 솔루션을 선택해야 합니다.
가격 격차를 수치화하면 다음과 같습니다. 1위안의 구매력은 4배 차이가 납니다.
이제 가격을 인하한 기업과 그렇지 않은 기업을 같은 기준으로 놓고 직접적인 비용 비교를 해보겠습니다.
기본 작업 단위는 100만 개의 입력 토큰과 100만 개의 출력 토큰으로 구성됩니다.
- DeepSeek V4 Pro / Xiaomi MiMo V2.5 Pro : 입력 비용 3위안, 출력 비용 6위안을 더하면 총 비용은 약 9위안입니다.
- ByteDance Seed-2.0-Pro : 입력 비용 3.2위안 + 출력 비용 16위안, 총 비용 약 19.2위안.
- 키미 문샷 V1 : 투입 비용 10위안, 산출 비용 30위안을 더하면 총 비용은 약 40위안입니다.
가장 낮은 등급과 가장 높은 등급 간의 차이는 4.4배입니다. 동일한 토큰 수를 처리하는 작업의 경우, Kimi는 DeepSeek이나 MiMo보다 거의 네 배나 더 비쌉니다. 긴 컨텍스트일수록 더 많은 리소스를 소모한다는 점을 고려하면, 긴 텍스트 시나리오에서는 이러한 격차가 더욱 커집니다.
본 비교는 기본 모델 API의 공개적으로 이용 가능한 입력 및 출력 가격에 한정됩니다. Qwen3-Max의 출력 가격은 찾을 수 없었고(입력 가격인 8.81위안/백만 토큰만 확인됨), Zhipu의 GLM-5의 구체적인 단가 또한 가격 인상 후 공개 채널에 아직 업데이트되지 않아 확인할 수 없습니다. 이 두 회사의 데이터는 추가 보완이 필요합니다.
번역, 요약, 간단한 질문 답변과 같이 본질적으로 수작업에 가까운 작업의 경우, 비용 차이가 4배 이상이라면 저렴한 모델을 선택하는 데 주저할 여지가 거의 없습니다. 그러나 여러 차례의 상담원 통화, 긴 코드 생성, 장기 추론과 같이 지적 능력을 요구하는 복잡한 작업의 경우, 가격 비교만이 의사 결정의 유일한 기준이 되어서는 안 됩니다. OmniTools는 기업들이 모든 시나리오를 포괄하는 단일 모델을 사용하는 대신, 모델 선택 시 빈도가 높고 간단한 작업과 빈도가 낮고 복잡한 작업을 내부적으로 분류해야 한다고 제안합니다.
개발자 마이그레이션 비용 및 새로운 선택 로직
가격 인하 후 모델을 변경해야 할까요? 이 질문에 대한 답은 개발사에 따라 완전히 다릅니다.
기본적인 시나리오를 개발하는 개발자에게 마이그레이션 비용은 매우 낮습니다. DeepSeek와 Xiaomi MiMo는 모두 OpenAI API 형식과 호환되므로 코드에서 모델 매개변수와 기본 URL만 수정하면 간단하게 전환할 수 있습니다. 커뮤니티 개발자들은 이미 단 두 줄의 코드만 변경하면 된다고 보고했습니다. Xiaomi가 컨텍스트 길이에 따른 단계별 가격 책정을 폐지함에 따라 개발자는 더 이상 긴 텍스트 시나리오에 대한 별도의 비용 최적화를 수행할 필요가 없어 코드 로직을 더욱 깔끔하게 작성할 수 있습니다.
특정 모델의 고급 기능에 깊이 의존하는 애플리케이션의 경우 상황이 다릅니다. 제품이 Kimi의 긴 컨텍스트 창, Zhipu GLM-5의 특정 에이전트 도구 호출 형식 또는 특정 모델의 고유한 출력 스타일에 크게 의존하는 경우 마이그레이션 비용은 단순히 코드 두 줄을 수정하는 것 이상으로 훨씬 더 많이 소요될 수 있습니다. 프롬프트 재설계, 함수 호출 체인 재디버깅, 예외 상황 재처리 등이 필요할 수 있으며, 이러한 비용은 API의 단가로 충당할 수 없습니다.
이것이 바로 시장에서 자연스럽게 발생하는 계층화 현상입니다. 일반적인 작업량에 따른 가격 책정 방식과 복잡한 작업량에 따른 가격 책정 방식이 공존할 것이며, 각각 충분한 시장 점유율을 확보할 것입니다. Zhipu가 가격을 83% 인상했음에도 불구하고 문의량이 400% 증가했고, DeepSeek는 가격을 3위안까지 낮춘 후에도 계속 운영되었다는 사실은 이러한 두 가지 논리가 충돌 없이 공존할 수 있음을 보여줍니다.
기업 구매 의사결정권자는 다중 모델 라우팅 메커니즘을 구축할 수 있습니다. 즉, 빈번하고 복잡성이 낮은 작업에는 기본 비용을 절감하기 위해 저가 모델을 사용하고, 빈번하고 난이도가 높은 작업에는 작업 성공을 보장하기 위해 고가 고성능 모델을 사용해야 합니다. 이 두 가지 접근 방식을 결합하는 것이 현재 비용 최적 솔루션입니다.
이번 가격 차별화의 핵심은 "기술 프리미엄"에서 "생태계 보조금"으로의 전환입니다.
마지막으로 핵심 질문에 답해 보겠습니다. 왜 한쪽은 급격한 하락세를 보이는 반면 다른 쪽은 급격한 상승세를 보이는 것일까요?
샤오미는 공식적으로 "풀스택 추론 최적화 및 서비스 효율성 향상"을 이유로 들었으며, 기술적인 세부 사항은 추후 기술 블로그를 통해 공개할 예정이라고 밝혔습니다. 알려진 아키텍처 정보에 따르면 MiMo-V2.5는 MoE 아키텍처를 사용하며, 총 1.02T 파라미터 중 42바이트만 활성화되어 있어 추론 효율성 측면에서 구조적인 이점을 보여줍니다. DeepSeek 역시 MoE 아키텍처를 사용하는 것으로 알려져 있으며, 동일한 성능을 가진 Dense 모델보다 추론 비용이 훨씬 낮습니다.
하지만 기술을 통한 비용 절감은 충분조건이 아닙니다. 근본적인 이유는 산업 구조의 차이에 있습니다.
알리바바, 바이트댄스, 샤오미 같은 주요 기술 대기업의 API는 본질적으로 더 큰 비즈니스 생태계로 진입하는 고객 확보 통로 역할을 합니다. 알리바바는 첸원(Qianwen)을 통해 알리바바 클라우드와 연결하고, 바이트댄스는 더우바오(Doubao)를 통해 볼케이노 엔진(Volcano Engine)을 활용하며, 샤오미는 미모(MiMo)를 통해 단말기 및 개발자 생태계를 확장합니다. API는 반드시 수익성이 있어야 하는 것은 아닙니다. 클라우드 서비스 구독, 컴퓨팅 파워 소비, 하드웨어 출하, 광고 등을 통해 수익을 창출할 수 있다면 장기적으로 약간의 손실을 감수하더라도 괜찮습니다. 이는 "생태계 보조금" 논리입니다. 이러한 대기업들은 자사 생태계 내에 다른 수익원을 보유하고 있어 저렴한 API를 지원할 수 있습니다.
Zhipu나 Kimi 같은 스타트업은 이러한 정부 지원금을 받을 수 없습니다. 연구 개발 및 컴퓨팅 비용을 충당하기 위해 API 자체에서 발생하는 수익에 의존해야 하며, 긍정적인 상업적 이익을 추구해야 합니다. 에이전트 시대에 토큰 소비가 기하급수적으로 증가하는 상황에서 낮은 가격을 유지하는 것은 판매량이 늘어날수록 손실이 커지는 것을 의미하므로, 가격 인상은 실제로 합리적인 사업적 선택입니다.
이러한 구조적 차이는 단기간에 해소되지 않을 것입니다. 대기업은 API를 통해 수익을 추구하지 않을 것이고, 스타트업은 막대한 자금을 쏟아부으며 영원히 경쟁할 여유가 없습니다. 두 가지 가격 책정 방식은 오랫동안 공존할 것이며, 시장은 결국 안정적인 이중 시스템을 형성하게 될 것입니다.
이는 개발자와 기업 고객 모두에게 희소식입니다. 최소한의 비용으로 대부분의 기본적인 작업을 완료할 수 있을 뿐 아니라, '지능형'이 필요한 복잡한 작업까지 처리할 수 있는 강력한 모델도 확보할 수 있기 때문입니다. 핵심은 어떤 모델을 사용할지 선택하는 것이 아니라, 언제 어떤 모델을 사용해야 하는지 아는 것입니다.




