谷歌 DeepMind 最近推出了名爲 “解耦式 DiLoCo” 的新型分佈式訓練架構,這一創新旨在提高大規模人工智能模型的訓練效率,並增強其在硬件故障情況下的魯棒性。
傳統的訓練方式需要所有計算單元在進行梯度更新時進行緊密同步,這使得整個過程容易受到單個硬件故障的影響。爲了解決這一問題,解耦式 DiLoCo 將訓練過程分散到多個異步、故障隔離的 “計算孤島” 中,使得每個計算單元可以獨立進行訓練,而不必等待其他單元。

這一架構的核心在於將訓練任務分配到多個被稱爲 “學習單元” 的集羣中。每個學習單元可以在本地進行多次梯度計算,然後再將壓縮後的梯度信息傳遞給外部優化器進行彙總。由於這一過程是異步的,即使某個單元出現故障,其他單元仍可以繼續訓練,避免了傳統方法中因單點故障導致的整體停滯。
通過實驗證明,解耦式 DiLoCo 在高硬件故障率的情況下仍能維持 88% 的良好利用率,而標準的數據並行訓練方法僅爲 27%。此外,這種新架構將跨數據中心所需的帶寬從 198 Gbps 大幅降低至 0.84 Gbps,使得在現有商業互聯網基礎設施下的全球分佈式訓練成爲可能。
值得一提的是,解耦式 DiLoCo 還具備自愈能力。在進行混沌工程測試時,該系統能夠在整個學習單元失效後繼續訓練,並在單元恢復後無縫重新整合。這種靈活性在多種硬件平臺上同樣適用,支持不同代數的 TPU 芯片在同一次訓練中協同工作,從而延長了舊設備的使用壽命,並緩解了硬件更新過程中可能出現的容量瓶頸。
劃重點:
🌟 解耦式 DiLoCo 通過分散訓練任務到多個異步學習單元,提高了大規模模型訓練的魯棒性。
🌐 該架構將跨數據中心帶寬需求降低至 0.84 Gbps,使得全球分佈式訓練更加可行。
🔧 具備自愈能力的解耦式 DiLoCo 在硬件故障情況下仍能維持高效訓練,且支持異構硬件的混合使用。
