告别“算力孤岛”:AI 训练正从中心化枷锁中突围

  • 中心化AI训练依赖大规模数据中心,但成本高昂、物理极限明显、风险集中。
  • 传统训练方法需要高同步通信,限制了分布式训练的可能性。
  • 联邦学习和DiLoCo等新技术允许低通信频率训练。
  • 这使得通过标准互联网在分布式网络上训练大模型成为可能。
  • 优势包括降低对少数供应商的依赖、增强韧性、促进跨国协作。
  • 例如Gonka项目,构建去中心化AI基础设施。
  • AI未来将更开放、分布式,减少对中心化设施的依赖。
总结

作者:Egor Shulgin | Gonka协议联合创始人,前Apple及Samsung AI算法工程师

多年来,最强大的 AI 系统一直被囚禁在密闭的“黑盒”之中——那些由少数科技巨头掌控、规模宏大的数据中心。在这些设施里,数以万计的 GPU 被塞进同一个物理空间,通过极速的内部网络紧密连接,使大模型能够在高度同步的系统下完成训练。

这种模式长期以来被视为技术上的“必然”。然而,现实正日益清晰:中心化数据中心不仅成本高昂、风险集中,且正在触及物理极限。大语言模型的增长速度呈指数级爆发,仅仅几个月前训练出的系统就已显得过时。现在的问题不再仅仅是“权力是否过于集中”,而是中心化基础设施在物理层面,是否还跟得上 AI 进化的步频。

繁荣背后的阴影:中心化的“物理天花板”

当今的最尖端模型已经榨干了顶级数据中心的每一分潜力。想要训练一个更强大的模型,往往意味着必须平地起一座新的机房,或者对现有设施进行推倒重来式的升级。与此同时,同址办公(Co-located)的数据中心正面临电力密度的极限——大量的能源并非消耗在计算上,而是浪费在了为了让这些硅片不被烧毁的散热系统中。结果显而易见:顶尖 AI 模型的训练能力被锁死在极少数公司手中,且高度集中于美、中两国。

这种中心化不仅是工程难题,更是战略隐患。AI 能力的获取正受到地缘政治、出口管制、能源配给和公司利益的重重限制。当 AI 成为经济生产力、科学研究乃至国家竞争力的基石时,对极少数中心化枢纽的依赖,正将基础设施变成最脆弱的“软肋”。

但如果这种垄断并非不可避免,而仅仅是我们现行训练算法的“副作用”呢?

被忽略的通信瓶颈:中心化训练的隐性限制

现代 AI 模型由于体量巨大,已无法在单一机器上训练。拥有千亿参数的基础模型需要无数 GPU 并行工作,且每隔几秒钟就要同步一次进度,在整个训练周期内这种同步高达数百万次。

行业的默认方案是“同址训练”:将成千上万的 GPU 堆在一起,用特制的昂贵网络硬件连接。这种网络确保了每个处理器都能实时对齐,保证模型副本在训练中完美同步。

这一方案效果显著,但前提极度苛刻:它要求极速内网、物理近距离、极稳定的电力供应以及中心化的运营控制。一旦训练需求跨越物理边界——跨城市、跨国境、跨洲际——系统就会分崩离析。普通互联网的连接速度比数据中心内网慢几个数量级。在现行算法下,高性能 GPU 大部分时间都在“待机”等待同步信号。据估算,若用标准互联网连接训练现代大模型,训练周期将从“月”拉长至“世纪”。这就是为什么过去这种尝试几乎被视为异想天开。

范式转移:当“减少通信”成为核心算法

传统训练模式的核心假设是:机器必须在学习的每一个微小步骤后进行交流。

幸运的是,一种名为“联邦学习”(Federated Learning)的技术从意外的方向带来了转机。它引入了一个极具颠覆性的想法:机器并不需要时刻交流。 它们可以独立工作更长时间,仅偶尔同步一次。

这一洞察演变成了一套更广泛的技术,即“联邦优化”。其中,“低通信频率”方案脱颖而出。通过允许在两次同步之间进行更多的本地计算,它使得在跨地域、低带宽的分布式网络上训练模型成为可能。

DiLoCo:全球化分布式训练的曙光

这种技术飞跃在 DiLoCo(分布式低通信训练)的研发中得到了具象化。

DiLoCo 不再强求实时同步,而是允许每台机器长时间进行本地训练,然后再分享更新。实验结果令人振奋:使用 DiLoCo 训练的模型,其性能足以媲美传统的高度同步模式,但通信需求却降低了数百倍。

至关重要的一点是,这使得在受控数据中心之外进行训练变得可行。开源实现已经证明,大语言模型可以通过标准互联网连接,在点对点(P2P)环境下完成训练,完全脱离了对中心化基础设施的依赖。

这种源自 DeepMind 研究员的灵感,已被 Prime Intellect 等机构采纳,用于训练数十亿参数规模的模型。曾经的研究构想正演变为构建顶级 AI 系统的务实路径。

行业变局:算力权力的再分配

这场从“中心化”到“分布式”的转向,其意义远超效率提升。

如果大模型可以在互联网上训练,AI 开发将不再是豪门的特许权。算力可以从世界各地贡献,由不同的参与者在多样化的环境下提供。这意味着:

  • 跨国界与跨机构的大协作成为可能;

  • 降低对少数基础设施供应商的依赖;

  • 增强面对地缘政治和供应链波动的韧性;

  • 更广泛的人群能够参与到 AI 基础技术的构建中。

在这个新模型下,AI 的权力重心正从“谁拥有最大的机房”转向“谁能最有效地协同全球算力”。

构建开放且可验证的 AI 基础设施

随着训练走向分布式,新的挑战也随之而来:信任与验证。在开放网络中,我们必须确保算力贡献是真实的,且模型未被恶意篡改。

这催生了对密码学验证方法的浓厚兴趣。一些新兴的基础设施项目正在将这些构想付诸实践。例如 Gonka——一个专为 AI 推理、训练和验证设计的去中心化网络。Gonka 不依赖中心化中心,而是协同独立参与者的算力,通过算法校验确保贡献的真实与可靠。

这种网络完美契合了“低通信训练”的内核:减少对高速私人基建的依赖,强调效率、开放与韧性。在这种语境下,去中心化不再是一个意识形态标签,而是一个工程层面的必然结果——因为算法不再需要时刻同步。

另一条出路

AI 训练的历史一直受制于通信的物理极限。多年来,进步取决于机器之间物理距离的缩短。

但最新的研究告诉我们,这并非唯一的路。通过改变机器的协同方式——沟通更少,而非更多——我们完全可以在全球互联网上培育出强大的模型。

随着算法的演进,AI 的未来也许不再取决于算力位于何处,而取决于它们如何智慧地相连。这一转变将使 AI 开发变得更开放、更具韧性,并最终摆脱中心化的枷锁。

分享至:

作者:Gonka

本文为PANews入驻专栏作者的观点,不代表PANews立场,不承担法律责任。

文章及观点也不构成投资意见

图片来源:Gonka如有侵权,请联系作者删除。

关注PANews官方账号,一起穿越牛熊