小米 MiMo 降价 99%，国产大模型价格战打到什么阶段了

5月27日，小米宣布MiMo-V2.5 Pro API永久降价，最高降幅99%，定价直接对标DeepSeek V4 Pro。几乎是同一时间，智谱在2026年Q1完成了累计83%的涨价，CEO公开表态“涨价后仍供不应求，调用量增长400%”。一边是接近底价的策略，另一边是逆势涨价还能翻倍增长。这背后是两种截然不同的定价逻辑。国产大模型 API 的定价已经从“按能力定价”转向“按竞争定价”，这一轮集中降价背后的成本逻辑是什么？已降价和未降价的模型之间，实际使用成本差距有多大，选型逻辑是否被改写？

小米MiMo降价的真实力度：不只是“99%”这个数字

先拆解这次降价的核心事实。

据小米MiMo官方公告，MiMo-V2.5系列API自5月27日起永久降价，最高降幅99%，同步取消上下文长度阶梯计费，已购套餐额度全额重置。MiMo-V2.5-TTS模型当前限时免费。

定价对标方面，开发者社区讨论均指出：MiMo-V2.5 Pro定价与DeepSeek V4 Pro一致，MiMo-V2.5基础版定价与DeepSeek V4 Flash一致。查阅DeepSeek官方API文档可知，DeepSeek V4 Pro输入价格为3元/百万Token，输出价格为6元/百万Token，缓存命中仅需0.025元/百万Token。这意味着MiMo V2.5 Pro大概率也锚定这一价格体系。

“99%”这个数字需要理性看待。它指的是某些长上下文场景从旧价到新价的最高降幅，并非所有场景都打了一折。真正值得注意的信号不是降幅百分比，而是降价方式：小米直接以DeepSeek为价格锚点，取消了此前按上下文窗口长度分档收费的复杂计费规则。开发者不再需要为了省钱而手动截断长文本，计费透明度的提升可能比单纯降价更有实际价值。

小米这次定价对标，意味着它直接选择与DeepSeek在同一价格带上竞争。两家都采用MoE架构（MiMo-V2.5总参数1.02T，激活参数仅42B），都兼容OpenAI API格式，如今价格也完全对齐，开发者在两者之间切换的成本几乎为零。

降价阵营全景：谁在跟，背后是什么逻辑

小米不是第一个降价的，也不会是最后一个。把降价阵营铺开来看，共同特征非常清晰。

DeepSeek是这一轮价格锚点的制定者。5月31日，V4 Pro将结束持续一段时间的2.5折优惠，永久定价为原价的1/4，也就是前面提到的输入3元、输出6元。这不是临时促销，是长期定价。

字节豆包的价格水平同样压得很低。根据GitHub LLM-Price价格追踪项目数据，Doubao-Seed-2.0-Pro输入3.2元/百万Token，输出16元/百万Token。据中国工业新闻网报道，字节豆包日均Token调用量已突破120万亿，是2024年5月的1000倍以上。

阿里通义千问是另一个大玩家。根据阿里云发布的弗若斯特沙利文分析师报告，2025年下半年中国企业级市场大模型日均总消耗量为37万亿Token，阿里千问占比32.1%，位列第一。

降价派的共同特征是背靠大厂生态。阿里的千问绑在阿里云上，字节的豆包是火山引擎的算力消耗入口，小米的MiMo则面向终端设备与开发者生态。对这些大厂而言，模型API本身不是利润中心，它是一张获客门票，真正的生意在后面的云计算、硬件销售、广告和终端生态里。API定价压到边际成本附近，只要能拉动更大的业务线增长，账就算得过来。

但这里有一个容易被忽略的问题：降价后各家对免费或低价套餐的并发QPS限制、SLA保障是否有隐性缩水，目前官方文档未做明确披露。企业采购做选型时，不能只看单价，还要看高并发场景下的可用性是否打了折扣。

涨价阵营的反逻辑：智谱和Kimi为什么不降反涨

与降价派形成对照的，是智谱和月之暗面Kimi。

据第一财经报道，智谱在2026年Q1 API价格累计上涨83%，CEO明确表示“涨价仍供不应求，调用量增长400%”。Kimi的Moonshot V1模型当前定价为输入10元/百万Token、输出30元/百万Token，是DeepSeek/MiMo同类产品的3到4倍。

涨价不是凭空喊价。OpenRouter的数据指出，2026年2月中国AI模型调用量首次超过美国，前五名中有四款中国模型，其中智谱和Kimi均在其列。智谱GLM-5系列在复杂Agent和代码生成场景下表现突出，Kimi K2.5则靠长上下文和推理能力支撑自己的高定价。

这里有一个反常识的商业逻辑：Agent时代，单价最低不等于综合成本最低。复杂任务场景下，模型的一次成功率直接决定总Token消耗。一个单价高但一次就能输出正确代码的模型，和一个单价低但需要反复纠错、重试三五次的模型相比，最终的实际消耗可能更少。智谱“涨价仍供不应求”，根源之一就在于企业客户在算总账之后发现，高价模型的综合成本反而更低。

不过需要说明，智谱GLM-5在当前具体场景下相比DeepSeek或MiMo的真实成功率和Token消耗差异，在没有独立第三方评测数据支持的情况下，不宜做确定性结论。企业选型时应该在自己的实际任务上做A/B测试，而不是依赖Benchmark排名或厂商宣传做决策。

成本差距量化：1元钱的购买力差了4倍

现在把降价派和未降价派拉到同一个量纲下，做一个直观的成本对比。

以100万输入Token加100万输出Token为一个基础任务单元：

DeepSeek V4 Pro / 小米MiMo V2.5 Pro：输入3元加输出6元，综合成本约9元。
字节豆包Seed-2.0-Pro：输入3.2元加输出16元，综合成本约19.2元。
Kimi Moonshot V1：输入10元加输出30元，综合成本约40元。

最低档和最高档之间的差距是4.4倍。处理同样Token量的任务，用Kimi的成本接近用DeepSeek或MiMo的4倍。如果加上上下文越长消耗越大的实际情况，这个差距在长文本场景下会拉得更大。

这里对比的仅限于基础模型API的公开输入输出定价。通义千问Qwen3-Max输出价格未查到（仅查到输入8.81元/百万Token），智谱GLM-5具体单价也因涨价后尚未更新至公开渠道而缺失。这两家的数据有待补充。

对于翻译、摘要、简单问答这类“体力活”，4倍以上的成本差距意味着选低价模型几乎没有犹豫空间。但对于多轮复杂Agent调用、长代码生成、长程推理这类“脑力活”，单价比对不能作为唯一决策依据。OmniTools的建议是：企业内部做一个任务分类，把高频简单任务和低频复杂任务分开选型，而不是用一个模型覆盖所有场景。

开发者的迁移成本与新的选型逻辑

降价之后，该不该换模型？这个问题对不同开发者来说，答案完全不同。

对于基础场景的开发者，迁移成本很低。DeepSeek和小米MiMo都兼容OpenAI API格式，只需要修改代码中的model参数和Base URL即可完成切换。社区已有开发者反馈基本就是改两行代码的事。小米取消上下文长度阶梯计费后，开发者也不需要再为长文本场景单独做成本优化，代码逻辑可以更简洁。

对于深度绑定特定模型高级能力的应用，情况就不一样了。如果产品重度依赖Kimi的长上下文窗口、智谱GLM-5的特定Agent工具调用格式、或者某个模型的独特输出风格，迁移成本远不止改两行代码——可能需要重新设计提示词、重新调试函数调用链、重新处理边界情况。这个成本不是API单价能覆盖的。

这正是市场正在发生的自然分层：通用任务卷价格，复杂任务卷能力。两套赛道会同时存在，而且各自都有足够的市场空间。智谱涨价83%还能增长400%调用量，DeepSeek降价到3元还能持续运营，这本身就说明了两套逻辑可以并行不悖。

对企业采购决策者来说，可以建立一个多模型路由机制：高频、低复杂度任务走低价模型，降低基础成本；低频、高难度任务走高价高能模型，保证任务成功率。两者结合，才是当前成本最优解。

这轮定价分化的本质：从“技术溢价”到“生态补贴”

最后来回答那个核心问题：为什么一边在狂降、一边在狂涨？

小米官方给出的解释是“全栈推理优化与服务效率提升”，技术细节承诺将通过后续技术博客披露。从已知架构信息看，MiMo-V2.5采用MoE架构，总参数1.02T中仅42B激活，确实在推理效率上有结构性优势。DeepSeek同样以MoE架构著称，推理成本本身就比同等能力的Dense模型低一个数量级。

但技术降本不是充分条件。更深层的原因是产业结构的差异。

大厂阵营阿里、字节、小米的模型API本质上是更大商业版图的获客入口。阿里用千问绑阿里云，字节用豆包拉火山引擎，小米用MiMo铺终端和开发者生态。API可以不赚钱，甚至可以接受长期微亏，只要能带来云服务订阅、算力消耗、硬件出货、广告收入等更大盘的收益。这是一种“生态补贴”逻辑：大厂内部有其他利润中心来为低价API买单。

创业公司阵营智谱、Kimi没有这个补贴池。他们必须靠API本身的收入来覆盖研发和算力成本，必须追求正向的商业化利润。在Agent时代Token消耗指数级增长的大背景下，维持低价意味着卖得越多亏得越多，涨价反而是一种理性的商业选择。

这个结构性差异短期内不会弥合。大厂不会在API上追求盈利，创业公司也不可能烧钱陪跑到底。两套定价逻辑会长期共存，市场最终会形成一个双轨制的稳定格局。

对于开发者和企业客户来说，这其实是一个好消息。你可以用最低的成本完成大部分基础工作，同时也有足够强的模型来处理那些真正需要“智力”的复杂任务。关键不在于选谁，而在于知道什么时候该用谁。