Chutes ：重构Web3与AI推理的去中心化Serverless基础设施

CoinW研究院

1.核心摘要

Chutes (SN64) 是构建在 Bittensor 网络上的去中心化 Serverless AI 计算平台。在 Web3 的 AI 算力赛道中，其核心定位类似于“网约车平台”与模型 PaaS（平台即服务）。该平台通过整合全球分散的闲置 GPU 算力并结合先进的容器化编排技术，为开发者提供开箱即用、按需付费的 AI 推理 API。在底层架构上，Chutes 采用经典的双角色博弈机制：由矿工（Miners）提供底层硬件随时响应外部请求，由验证者（Validators）实时评估质量并分配权重，从而形成了一个兼具低成本与高并发能力的工业级推理网络。目前，Chutes 率先在去中心化计算领域跑通了真实的商业闭环，累计处理超 9.1 万亿个 Tokens，拥有逾 40 万活跃用户，并成为 Bittensor 生态首个自我报告估值突破 1 亿美元大关的现象级子网。通过将真实业务收益反哺代币价值，Chutes 具备在长期发展为去中心化 AI 赛道独角兽级基础设施的潜力。

2.行业背景：AI 推理的崛起与 Web2 模式的困境

2.1 什么是模型推理？与预训练的本质区别

在深入了解算力平台之前，我们需要理清 AI 模型生命周期中的两个核心阶段：预训练（Training）与推理（Inference）。

模型预训练：这是 AI 模型的“学习阶段”。研究人员需要将海量的数据（如整个互联网的文本语料）输入给神经网络，通过大规模的矩阵乘法不断调整模型内部的数十亿甚至数千亿个参数。这一过程极其耗时，且对集群算力的互联带宽（如 NVLink）要求极高，属于“集中力量办大事”的重资产投入。

模型推理：这是 AI 模型的“应用阶段”。当模型训练完毕后，参数被固定下来。此时用户输入一段提示词（Prompt），模型通过前向传播计算（Forward Pass）生成概率最高的下一个词语。相比于训练，推理所需的单次算力较小，但要求极高的并发处理能力、极低的延迟响应（Latency）以及 24/7 的系统稳定性。

2.2 算力赛道的发展逻辑与行业重心的转移

回顾整个算力赛道的发展，我们可以清晰地看到一条演进主线：从早期的 CPU 通用计算，到 GPU 的并行计算崛起（CUDA 生态的建立），再到如今专为 AI 定制的 TPU 和 ASIC 芯片百花齐放。在过去几年，资本和技术的焦点几乎全部集中在“如何训练出更聪明的模型”上。然而，随着 Llama 系列以及 DeepSeek 等开源大模型能力的飞跃，开源模型与闭源巨头（如 GPT-4）之间的智力差距被迅速抹平。AI 行业的价值捕获重心正不可逆地从“模型预训练”转向“模型推理（Inference）”。原因在于，大模型要实现真正的大规模商业化落地和赋能千行百业，必须具备 24/7 的高可用与低延迟响应能力。此时，“如何便宜、稳定、快速地运行模型”成为了行业最大的痛点。

2.3 Web2 时代的 AI 推理参与者及核心局限

目前的 Web2 推理赛道主要由以下几类参与者主导：

闭源模型 API 提供商：如 OpenAI (ChatGPT)、Anthropic (Claude)、Google (Gemini)。它们提供极其易用的 API，但黑盒运作，价格昂贵且存在极强的生态绑定。

传统云服务巨头：如 AWS (亚马逊云)、Microsoft Azure、Google Cloud。它们提供底层虚拟机或 GPU 裸机租赁，灵活性高但运维成本极重。

垂类推理即服务（MaaS）平台：如 Together AI、Anyscale、HuggingFace Inference Endpoints。它们专门为开源模型提供推理托管服务。

然而，当开发者在使用这些 Web2 巨头（如 OpenAI API、AWS 或 Together AI）的服务时，依然面临着三座难以逾越的大山：高昂的“算力税”与结算颗粒度粗糙：中心化机房的软硬件折旧（场地租金、冷却系统、高昂的服务器采购）与维护成本极高，导致最终转嫁给开发者的 API 调用费用居高不下。此外，传统云计算往往按“小时”或“整台机器”计费，这种传统计费模式对具有海量瞬时并发需求的大规模应用并不友好，非高峰期经常存在严重的资源闲置浪费。

复杂的“基建坑”：对于尝试跳过云厂商 API、自行租赁机器部署开源大模型的初创团队而言，必须面对一条极其陡峭的学习曲线。他们需要解决复杂的显卡选型、底层驱动配置、推理加速框架（如 vLLM、TensorRT）调优、节点维护以及容器化集群编排等问题，工程门槛极高。

厂商锁定与数据隐私风险：企业一旦深度绑定特定云厂商的 API 服务，其未来的技术路线扩展与成本结构将完全受制于人。更为致命的是，对于医疗、金融、法律等高度敏感的行业，将核心业务的私密数据传输至中心化 API 服务器处理，存在极高的数据泄露隐患与合规风险。

3.破局之道：Chutes 用“网络”重构 AI 推理

3.1 核心定位：AI 生态里的“网约车平台”与去中心化 PaaS

在庞大且分工明确的 Bittensor 生态中，各个子网各司其职。例如，Templar (SN3) 扮演着“造车工厂”的角色，其核心任务是从零开始，聚合算力训练出智力顶尖的开源模型；而 Chutes (SN64) 的定位截然不同，它专注于“运营服务”，扮演着 Web3 时代“网约车平台”的角色。

Chutes 本身并不负责生产模型，而是通过其网络协议，高效整合全球分布的“车辆”（即分散在世界各地的闲置 GPU 算力），让现成、顶尖的开源模型在这些节点上高效运转，进而为外部开发者提供无缝的推理服务。本质上，Chutes 在区块链之上构筑了一个去中心化、开源友好且高度标准化的底层 PaaS（平台即服务）设施。

3.2 真正的 Serverless 体验与极致成本优势

Chutes 为开发者带来的核心变革在于实现了真正的 Serverless（无服务器）体验。在使用 Chutes 时，开发者完全无需操心底层的硬件选型、环境配置与集群维护，仅需修改几行代码，就可以通过完全兼容 OpenAI 格式的 API 顺畅接入网络。在成本控制方面，依托区块链原生的加密微支付（Micropayments）机制，Chutes 实现了行业罕见的“按单个 Token 计费”的超级细粒度结算。这种颠覆性的结算方式彻底消除了传统云主机按小时计费所带来的资源闲置浪费。在实际应用中，这种优势使其价格比传统云服务（如 AWS）便宜约 85%，比市场上多数中心化 API 平台节约至少 40% 的成本。

3.3 隐私升级：TEE 架构构建信任飞轮

在去中心化网络中，如何保护用户输入给匿名节点的 Prompt（提示词）和业务数据一直是最大的难题。针对企业级用户对隐私的深刻担忧，Chutes 目前正在其网络中全面推进 TEE（可信执行环境，Trusted Execution Environments）的部署。TEE 技术利用硬件级别的加密手段，在 CPU/GPU 内部隔离出一块受到严格保护的内存区域。这意味着去中心化节点可以在一个加密的“黑盒”内处理推理请求，在计算全过程中，连提供算力的矿工本人也绝对无法窥探到用户的敏感输入数据。这一底层技术的引入，从根本上解决了去中心化网络面向企业级商用部署的合规与隐私痛点，为 Web2 企业的大规模采用扫清了障碍。

4.核心架构：AI 推理是如何在网络中完成的

在 Chutes 的底层分布式架构中，系统通过复杂的路由和负载均衡机制，将海量的推理任务分发至全球网络。其核心参与者被明确划分为两类，通过精妙的密码学与经济市场博弈来保障最终的服务质量：

矿工（服务提供者）：全球各地的算力节点通过质押接入系统后，必须根据网络指令，加载系统指定的“常驻热模型”（Permanently Hot Models）。“热模型”意味着模型的巨量参数已经被预先加载到 GPU 的显存（VRAM）中。基于先进的容器化编排技术，这些算力节点必须时刻保持高度的系统可用性，以便随时以极低的冷启动延迟，承接瞬时涌入的高并发 API 请求。

验证者（质检员）：在去中心化网络中，没有中心机构进行监督，因此必须依赖验证节点（Validators）。验证者负责持续向矿工发送随机生成的测试请求以及路由真实的业务请求，并从响应延迟（首字生成时间 TTFT）、吞吐能力（每秒生成的 Token 数）和输出准确率等多个核心维度对矿工的服务进行严苛打分。表现优异的矿工将获得丰厚的网络代币奖励，而表现不佳或试图作恶的矿工会被系统无情淘汰，甚至罚没质押金。

这种基于 Bittensor 底层共识的去中心化博弈架构，巧妙地将利益驱动转化为服务质量的保障，确保了即使是松散的分布式网络，也能够持续输出媲美中心化顶级机房的工业级系统稳定性。

5.经济引擎：从“通胀驱动”向“真实造血”的跨越转变

在加密世界的过往周期中，大量早期的 Web3 算力项目陷入了死亡螺旋：它们过度依赖代币的恶性通胀释放来补贴吸引算力（即所谓的“挖矿”），一旦二级市场表现不佳，算力便会迅速流失。相比之下，Chutes 最核心的竞争力在于其成功跑通了良性的去中心化商业闭环。

目前，Chutes 网络每天能够稳定处理巨量的真实 B 端（企业级）和 C 端（终端消费者） API 请求。通过代币系统，网络向这些使用者收取真实的服务费用。更为关键的是，依靠系统底层内置的自动质押（Auto-Staking）及结算机制，这些源自外部真实世界的业务收入（可能始于法币支付），最终会直接转化为对网络生态资产（代币）的强劲买盘。这种机制不断反哺代币持有者及参与维护网络的各方力量，真正实现了从“烧钱买算力”的庞氏模型向“真实业务造血”的可持续经济模型的跨越。

6.生态现状与亮眼的数据表现

截至近期的链上及业务数据追踪，Chutes 网络在实际的高并发业务场景中展现出了极其强大的吞吐上限与深度的市场渗透率。

核心业务量突破天际： Chutes 网络已累计处理了超过 9.1 万亿个 Tokens，这是一个在 Web3 乃至众多 Web2 中型平台中都极具分量的数字。其日峰值处理量可高达 500 亿次，累计服务了超过 40 万名终端及开发者用户。

绝对领先的市场地位：凭借扎实的业务数据，Chutes 成为整个 Bittensor 生态内首个自我报告估值跨越 1 亿美元大关的现象级子网。

深度的生态融合与“水电煤”属性：在外部，Chutes 成功服务了众多出圈应用。在内部，Chutes 还逐渐成为了 Bittensor 生态内其他子网（如聚焦各类垂类应用和数据处理的子网）的核心算力提供者，充当了整个去中心化 AI 生态底层“水电煤”的关键角色。

稳健的代币经济指标：截至 2026年 5 月 12 日，Chutes 的子网代币 Alpha (alpha token) 价格约为 0.0877 TAO。网络不仅吸引了约 13666 个持币地址，还拥有 244 个活跃矿工节点和 12 个验证者节点。其网络 Emission（排放）占比为 8.77%。同时，在其 DEX 流动性池中，底仓 TAO 占比为 7.88%，Alpha 占比为 92.12%。无论从算力规模还是资金体量来看，Chutes 在 TAO 生态中都属于绝对的头部项目。这些数据清晰地反映了其实际市场热度。

7.竞争格局、潜在挑战与终局展望

7.1 核心优势与赛道护城河壁垒

当前的去中心化计算（DePIN + AI）赛道已经彻底告别了“讲概念、写白皮书”的蛮荒时代，进入了“拼交付、拼成本、拼稳定性”的深水区。相比于仅提供裸机租赁的平台，Chutes 最强大的护城河在于其已经被海量业务数据严格验证过的商业级推理交付能力与对传统 Web2 巨头绝对的成本碾压优势。结合未来后续全面上线的 TEE 隐私加密架构，Chutes 成功为那些畏惧硅谷大厂生态垄断和数据霸权的开发者，提供了一个完全无需许可（Permissionless）且性价比极高的理想基础设施。

7.2 潜在的挑战与破局难关

尽管当前的业务数据与模型流转十分亮眼，但 Chutes 若要从 Web3 走向更为广阔的主流世界，未来仍需攻克一些硬核难关。极端并发下的冗余弹性考验：当未来出现真正的“杀手级”千万级日活 AI 应用，并在极短时间内突然接入网络时，去中心化网络能否保证在算力需求激增的情况下，依然维持毫秒级的低延迟响应且不发生宕机，是对调度算法的终极考验。企业级市场心智的破圈：尽管拥有 TEE 技术加持，但如何打破传统 Web2 公司的刻板印象，让更多合规企业信任并大规模采用去中心化 API 协议，仍需要漫长且持续的市场教育与培育。

7.3 终局推演

总结而言，随着多模态大模型和 AI 代理（AI Agents）的高频、自主交互时代全面来临，机器与机器之间的对话将产生指数级暴增的推理需求。此时，一个低成本、无限制、支持按需微支付的去中心化推理层，必将成为下一代互联网不可或缺的刚需基建。Chutes 所代表的，不仅仅是底层计算资源分配方式的去中心化，更是对人类社会开源智力资源的一次普惠化分发。如果 Chutes 能够成功跨越流量承接的高墙与传统企业端采用的信任鸿沟，它极有希望在未来几年内，成长为去中心化 AI 赛道中具备长期价值捕获能力的超级底座与独角兽平台。