Decoupled DiLoCo: 分布式AI训练的新前沿

Adrian Cole

2026年6月26日

original

DeepMind 提出 Decoupled DiLoCo，一种改进的分布式训练方法，通过解耦同步步骤大幅降低通信开销，同时保持模型收敛质量。这项技术有望让数千块 GPU 的集群训练更高效、更稳定，尤其对超大规模语言模型的开发具有重要意义。

训练一个千亿参数的大模型，背后往往需要数千块 GPU 同时工作。但分布式训练有一个老问题：节点越多，通信就越成为瓶颈。传统的 All-Reduce 同步方式让每个节点必须频繁交换梯度，网络稍有波动就会拖慢整个集群。DeepMind 最近在博客中介绍的 Decoupled DiLoCo，就是针对这一难题给出的新方案。

从 DiLoCo 到 Decoupled DiLoCo：少点同步，多点韧性

去年 DeepMind 提出的 DiLoCo 已经是个突破——它让分布式训练中的节点可以独立跑多个本地步后再同步，类似“异步 + 周期同步”的折中。而 Decoupled DiLoCo 更进一步，把模型的优化器状态和梯度更新彻底解耦。简单说，每个工作节点在本地计算梯度后，不会立刻等待全局平均，而是异步发送给一个参数服务器。参数服务器负责聚合，再逐步把更新推回来。这样一来，任何单个节点的延迟都不会卡住整个流水线。

这种解耦带来的最直接好处是弹性。如果某块 GPU 因为网络抖动慢了半拍，其他节点不需要停下来等它。整个训练过程就像一辆每个轮子能独立调节转速的车，而不是必须统一转动的链条。对于跨数据中心训练甚至混合云场景，这种弹性格外重要——不同机房间的网络延迟可能相差几个数量级。

对实际训练的冲击：从“能不能”到“怎么省钱”

这项技术的实际影响主要体现在两个方面。第一，它让大规模训练的门槛进一步降低。过去想用几千张卡训一个模型，需要极其精细的网络调优和昂贵的 InfiniBand 硬件。Decoupled DiLoCo 让标准以太网也能胜任，因为通信负载被分散到更长的时间窗口里。第二，它提升了训练的鲁棒性。硬件故障在超大规模集群中是常态，传统同步法一个节点挂了就得 checkpoint 回滚。而解耦架构允许动态增减节点，甚至中途更换硬件都不会中断训练。

对于研究机构或中小型 AI 公司来说，这意味着可以用更少的前期投入参与前沿模型训练。你不需要租用那种“所有机器都在同一个机柜”的专属集群，而是可以把分布在不同地区的廉价算力组合起来——只要 Decoupled DiLoCo 能在网络不稳定的环境下保持效率。

通信成本降低：相比全同步训练，Decoupled DiLoCo 可减少 90% 以上的跨节点数据传输次数。
容错性提升：单点故障不再导致全局停机，训练可以自动绕过坏节点继续。
硬件要求放宽：不再强依赖超低延迟网络，普通数据中心网络即可运行大规模训练。

还有哪些坑需要填？

当然，Decoupled DiLoCo 并不是魔法。解耦之后，参数更新的滞后性可能会引发稳定性问题，尤其是在学习率调得比较激进时。DeepMind 在博客中提到，他们通过调整本地步数窗口和动量项来补偿，但实际应用中仍需要针对具体模型做超参数搜索。另外，参数服务器自身会成为新的瓶颈——如果集群规模太大，单台参数服务器可能扛不住。后面可能需要分片或树形聚合架构来扩展。

整体来看，Decoupled DiLoCo 代表了一个清晰的方向：分布式训练正在从“刚性同步”走向“柔性异步”。它不是第一个提出解耦思路的工作，但通过实验验证了在千卡规模下的可行性，并且有 Google 自家的 TPU 和大型模型作为背书。

如果你正在搭建训练集群，可以先从小规模实验开始：在 64 张卡以下的场景里，全同步训练可能更简单。但假如计划扩展到几百张卡以上，或者必须利用跨地域的资源，那么 Decoupled DiLoCo 的思路值得认真参考。关注 DeepMind 后续开源的代码和 benchmark 结果，会是下一步最有价值的行动。

Decoupled DiLoCo分布式训练DeepMindAI训练弹性训练异步同步大模型训练通信优化