OpenAI 与 Anthropic 等AI巨头营收竞赛背后:企业客户为何正在“逃离”高昂的Token定价?

This article is not available in the current language yet. Showing the original version.
OpenAI与Anthropic营收高速增长的背后,Token计费模式正击穿企业预算——Uber仅四个月就耗尽全年AI预算,微软也因成本压力被迫整合供应商。当代理型AI工作流导致Token消耗量远超预期,而谷歌凭借自研TPU和规模效应推出更便宜的Gemini Flash时,AI实验室的IPO估值逻辑面临重估。

2026年第一季度,OpenAI实现57亿美元营收,以近10亿美元的优势领先Anthropic。这一数据来自科技媒体The Information援引两位知情人士的报道。表面上看,OpenAI在营收竞赛中占据上风,但深入分析后会发现,支撑这一增长的AI Token定价模式,正对两家实验室赖以生存的企业客户群构成严峻挑战。

营收差距背后的结构性隐忧

从年化营收角度看,Anthropic已接近450亿美元,远超OpenAI在2月份公布的250亿美元年化数据。据《华尔街日报》报道,Anthropic第二季度营收预计将从第一季度的48亿美元翻倍至109亿美元。OpenAI尚未披露其第二季度预测。这意味着,第一季度数据实际上“美化”了OpenAI的相对表现——在单季度中落后的公司,年化增速反而更快。对于关注两家公司IPO进程的投资者而言,这一反转值得警惕。

更值得关注的是估值差异。据《纽约时报》报道,Anthropic正在进行新一轮300亿至500亿美元的融资,估值高达9500亿美元,已超过OpenAI此前公布的8500亿美元估值。对散户投资者而言,估值差距才是更关键的指标——因为它直接决定了IPO定价。

Token计费模式正在击穿企业预算

当我们将目光投向为这些AI服务买单的企业内部时,营收增长的故事变得复杂。Uber首席技术官Praveen Neppalli Naga向The Information证实,该公司在四个月内就耗尽了2026年全年的AI预算。导火索是Claude Code的采用率从32%飙升至84%,覆盖了其5000名工程师团队。随着采用率飙升,每位工程师的月度API成本从500美元到2000美元不等。Naga表示,公司现在“回到起点”重新制定预算。

这并非孤例。据The Verge报道,微软体验与设备部门——涵盖Windows、Microsoft 365、Outlook、Teams和Surface——计划在2026年6月30日前逐步减少Claude Code的使用。这一时间点与微软财年结束吻合,财务考量显然是影响因素之一,但报道指出,主要驱动力是平台整合至GitHub Copilot CLI。换句话说,Token成本创造了一个迫使供应商整合的“强制函数”,单靠财务激励可能不会如此迅速地触发这一决策。

此外,微软旗下的GitHub宣布,自2026年6月1日起,其Copilot AI编程助手将从固定费率订阅转向基于使用量的计费模式。这一变化将用与Token消耗挂钩的GitHub AI Credits取代高级请求单元。据一位开发者反映,其预估月度成本将从4月的约67欧元飙升至新模型下的约966欧元。这一变化在企业预算本已承压之际,进一步消除了预算的可预测性。

Token消耗为何如此迅猛?

前沿AI模型的成本结构解释了企业客户为何资金告急。Token是AI模型处理的计算单位——每一次提示、每一次响应、每一次长上下文代码库分析都在消耗它们。根据Anthropic官方文档,Claude Code平均每位开发者每天花费6美元,90%的用户日成本低于12美元。然而,这一平均值掩盖了“尾部风险”。到2026年3月,Uber 84%的开发者被归类为“代理型编码用户”——他们将整个工作流程委托给AI,而不仅仅是接受自动补全建议。代理型工作流每次会话消耗的Token远多于单轮补全。在试点阶段看似合理的单位经济学,在规模化采用阶段便难以为继。

驱动Token价格的底层基础设施成本并不神秘。按需定价的NVIDIA H100 GPU,在专业供应商处为每小时1.49美元,在Microsoft Azure上则为每小时6.98美元。AI实验室必须同时运行数千块这样的GPU,才能为企业客户提供规模化服务。这些成本直接传导至API Token定价。

Gemini Flash为何更便宜?

在此背景下,Alphabet的定价策略显得与众不同。据VentureBeat报道,谷歌在I/O 2026大会上发布了Gemini 3.5 Flash,称其速度更快、成本更低、更智能,每年可为企业节省超过10亿美元的AI成本。Sundar Pichai表示,如果顶尖企业将80%的工作负载转移到Gemini 3.5 Flash和前沿模型的组合上,每年可节省超过10亿美元。

Gemini Flash之所以便宜,有其结构性原因——OpenAI和Anthropic难以复制。首先,谷歌自研Tensor Processing Units,减少了对第三方GPU定价的依赖。其次,截至2026年3月,谷歌开发者在其内部Antigravity平台上每天处理约5000亿Token,到5月中旬这一数字已飙升至超过3万亿。据VentureBeat对谷歌I/O简报的报道,这种内部规模创造了数据飞轮效应,随着时间推移提升了模型效率并降低了每Token的服务成本。第三,Gemini Flash针对速度和成本效率进行了优化,而非追求最大推理深度。企业将其用于结构化任务时,运行的是更轻量级的模型,因此支付更少。

长期视角:基础设施终将跟上

Token定价危机可能只是过渡性的。据NVIDIA官方新闻室消息,其Rubin平台的目标是将推理Token成本相比Blackwell架构降低10倍。根据Ramp的企业支出数据,研究机构Artefact指出,主要供应商每百万Token的平均成本从约10美元降至2.50美元,仅用了一年时间。Epoch AI的研究进一步表明,综合考虑定价和效率提升,推理成本正在逐年大幅下降。

然而,这一长期趋势并不能解决短期问题。实际上,单位价格下降只是故事的一半。组织对AI的消费方式已经发生了如此巨大的变化,以至于更低的每Token成本被更高的使用量所抵消。按照2024年Token费率制定预算的企业发现,2026年采用水平的代理型AI工作流消耗的Token是电子表格预测值的数倍。

这对投资者意味着什么?

OpenAI和Anthropic的营收数据确实是里程碑式的。然而,企业成本压力是一个真实变量,它将影响两家公司的IPO估值。如果主要客户触及预算上限并缩减使用量,两家实验室为2026年下半年设定的增长率将更难维持。反之,如果基础设施效率提升足够快,能够降低企业Token成本,需求显然是存在的——Uber的工程师并非不想使用Claude Code,而是没有足够的预算来支付它。这与产品本身无效是完全不同的问题。

AI补贴时代尚未结束,但正在走向终结。对投资者而言,问题不在于这些模型是否有价值,而在于谁将吸收企业预算与模型实际消耗之间的成本缺口——直到硬件性能赶上需求。

Share to:

Author: BiyaNews

Opinions belong to the column author and do not represent PANews.

This content is not investment advice.

Image source: BiyaNews. If there is any infringement, please contact the author for removal.

Follow PANews official accounts, navigate bull and bear markets together
PANews APP
Gate upgrades its predictive market monitoring and Live features to track trending events and fund flows in real time.
PANews Newsflash