Decoupled DiLoCo: 分散式AI訓練的新前沿

Decoupled DiLoCo: 分散式AI訓練的新前沿

Adrian Cole
26
original

DeepMind 提出 Decoupled DiLoCo,一種改進的分散式訓練方法,通過解耦同步步驟大幅降低通訊開銷,同時保持模型收斂質量。這項技術有望讓數千塊 GPU 的叢集訓練更高效、更穩定,尤其對超大規模語言模型的開發具有重要意義。

訓練一個千億引數的大模型,背後往往需要數千塊 GPU 同時工作。但分散式訓練有一個老問題:節點越多,通訊就越成為瓶頸。傳統的 All-Reduce 同步方式讓每個節點必須頻繁交換梯度,網路稍有波動就會拖慢整個叢集。DeepMind 最近在部落格中介紹的 Decoupled DiLoCo,就是針對這一難題給出的新方案。

從 DiLoCo 到 Decoupled DiLoCo:少點同步,多點韌性

去年 DeepMind 提出的 DiLoCo 已經是個突破——它讓分散式訓練中的節點可以獨立跑多個本地步後再同步,類似「非同步 + 週期同步」的折中。而 Decoupled DiLoCo 更進一步,把模型的優化器狀態和梯度更新徹底解耦。簡單說,每個工作節點在本地計算梯度後,不會立刻等待全域性平均,而是非同步傳送給一個引數伺服器。引數伺服器負責聚合,再逐步把更新推回來。這樣一來,任何單個節點的延遲都不會卡住整個流水線。

這種解耦帶來的最直接好處是彈性。如果某塊 GPU 因為網路抖動慢了半拍,其他節點不需要停下來等它。整個訓練過程就像一輛每個輪子能獨立調節轉速的車,而不是必須統一轉動的鏈條。對於跨資料中心訓練甚至混合雲場景,這種彈性格外重要——不同機房間的網路延遲可能相差幾個數量級。

對實際訓練的衝擊:從「能不能」到「怎麼省錢」

這項技術的實際影響主要體現在兩個方面。第一,它讓大規模訓練的門檻進一步降低。過去想用幾千張卡訓一個模型,需要極其精細的網路調優和昂貴的 InfiniBand 硬體。Decoupled DiLoCo 讓標準乙太網也能勝任,因為通訊負載被分散到更長的時間視窗裡。第二,它提升了訓練的魯棒性。硬體故障在超大規模叢集中是常態,傳統同步法一個節點掛了就得 checkpoint 回滾。而解耦架構允許動態增減節點,甚至中途更換硬體都不會中斷訓練。

對於研究機構或中小型 AI 公司來說,這意味著可以用更少的前期投入參與前沿模型訓練。你不需要租用那種「所有機器都在同一個機櫃」的專屬叢集,而是可以把分佈在不同地區的廉價算力組合起來——只要 Decoupled DiLoCo 能在網路不穩定的環境下保持效率。

  • 通訊成本降低:相比全同步訓練,Decoupled DiLoCo 可減少 90% 以上的跨節點資料傳輸次數。
  • 容錯性提升:單點故障不再導致全域性停機,訓練可以自動繞過壞節點繼續。
  • 硬體要求放寬:不再強依賴超低延遲網路,普通資料中心網路即可執行大規模訓練。

還有哪些坑需要填?

當然,Decoupled DiLoCo 並不是魔法。解耦之後,引數更新的滯後性可能會引發穩定性問題,尤其是在學習率調得比較激進時。DeepMind 在部落格中提到,他們通過調整本地步數視窗和動量項來補償,但實際應用中仍需要針對具體模型做超引數搜尋。另外,引數伺服器自身會成為新的瓶頸——如果叢集規模太大,單臺引數伺服器可能扛不住。後面可能需要分片或樹形聚合架構來擴充套件。

整體來看,Decoupled DiLoCo 代表了一個清晰的方向:分散式訓練正在從「剛性同步」走向「柔性非同步」。它不是第一個提出解耦思路的工作,但通過實驗驗證了在千卡規模下的可行性,並且有 Google 自家的 TPU 和大型模型作為背書。

如果你正在搭建訓練叢集,可以先從小規模實驗開始:在 64 張卡以下的場景裡,全同步訓練可能更簡單。但假如計劃擴充套件到幾百張卡以上,或者必須利用跨地域的資源,那麼 Decoupled DiLoCo 的思路值得認真參考。關注 DeepMind 後續開源的程式碼和 benchmark 結果,會是下一步最有價值的行動。

Decoupled DiLoCo分散式訓練DeepMindAI訓練彈性訓練非同步同步大模型訓練通訊優化

分享

評論

0
0/500 字元

暫無評論

成為第一個評論的人

探索更多

相似工具

GeoInfer

GeoInfer

GeoInfer 是一款面向調查人員、記者、執法部門和安保專家的 AI 地理定位工具,通過分析照片中的建築、地形、植被等視覺線索,快速推斷拍攝地點。無需手動比對地圖,支援批量處理,適用於開源情報(OSINT)調查、災難響應和新聞事實核查。

Riskified

Riskified

Riskified 是基於人工智慧的電商欺詐防範與風險智慧平臺,幫助全球電商企業通過機器學習自動化稽覈交易,減少拒付損失並提升收入。平臺實時分析使用者行為,在安全與轉化率之間取得平衡,已服務眾多大型電商企業。

Fetcher

Fetcher

Fetcher是一款AI驅動的招聘工具,自動搜尋被動候選人,讓招聘者從繁瑣的蒐集中解放,專注於候選人體驗。支援多樣化搜尋,幫助團隊更高效地發現並接觸頂尖人才。

Kavout

Kavout

Kavout 是一款金融AI工具,允許使用者以自然語言提問的方式研究股票、ETF、加密貨幣和外匯。無需在多個平臺間切換,直接詢問「NVDA是否高估」或「尋找低負債、低於50美元的股息股」,即可獲得財務資料與分析。

PollenTracker

PollenTracker

PollenTracker是一款AI工具,實時更新美國及英國200多個城市的花粉、空氣質量和天氣資料,並給出戶外活動安全建議。適合過敏人群和關注健康者。

PixieBrix

PixieBrix

PixieBrix 是一個低程式碼平臺,讓你快速構建並部署上下文感知的瀏覽器擴充套件,無縫整合 AI、API 和企業資料,支援規模化管理和自定義工作流。

開源專案

ai-market-maker: 開源 AI 對衝基金作業系統

ai-market-maker 是一個基於 TypeScript 的開源 AI 對衝基金作業系統,通過智慧代理實現自動化交易決策。它支援多種策略配置和風險管理,適合量化交易開發者、金融科技愛好者以及希望探索 AI 賦能投資的研究者。專案活躍度較高,社羣正在成長。

OpenAlice: 開源AI全品種交易助手

OpenAlice 是一個開源 AI 交易代理,覆蓋股票、加密貨幣、大宗商品、外匯和巨集觀市場。它自動化從研究到倉位退出全流程,基於 TypeScript 構建,GitHub 星標超 5200,適合有程式設計能力的交易者。

OctoBot: 開源AI加密貨幣交易機器人,自動執行多種策略

OctoBot 是一個免費開源的加密貨幣交易機器人,支援 Binance、Hyperliquid 等 15+ 交易所,可自動執行 AI、網格、DCA 和 TradingView 策略。介面簡潔易用,無需程式設計即可配置,適合新手和進階交易者。

openmed: 開源醫療 AI 框架

openmed 是一個專注於醫療健康領域的開源人工智慧專案,基於 Python 開發,在 GitHub 上獲得了超過 3400 星標。它旨在為醫療資料分析和 AI 模型部署提供基礎工具,降低醫療 AI 的開發門檻,適合研究人員和開發者探索智慧診斷、醫學影像分析等場景。

AIRI: 自託管虛擬角色數字伴侶

AIRI 是一個面向自託管的虛擬角色 / 數字伴侶專案,具有語音、對話、遊戲代理等能力

ValueCell: 社羣驅動多智慧體金融投研平臺

ValueCell 是一個以社羣為驅動的、多智慧體系統平臺,專注於金融領域的應用。它旨在將多個智慧體(如市場分析、情緒分析、新聞分析、基本面分析等)組合協作,形成一種「智慧投研團隊」機制,為使用者提供統一的投資組合管理、風險監控與策略開發。