谷歌 DeepMind 推出解耦式 DiLoCo：提升異步訓練架構，容忍硬件故障

谷歌 DeepMind 最近推出了名爲 “解耦式 DiLoCo” 的新型分佈式訓練架構，這一創新旨在提高大規模人工智能模型的訓練效率，並增強其在硬件故障情況下的魯棒性。

傳統的訓練方式需要所有計算單元在進行梯度更新時進行緊密同步，這使得整個過程容易受到單個硬件故障的影響。爲了解決這一問題，解耦式 DiLoCo 將訓練過程分散到多個異步、故障隔離的 “計算孤島” 中，使得每個計算單元可以獨立進行訓練，而不必等待其他單元。

這一架構的核心在於將訓練任務分配到多個被稱爲 “學習單元” 的集羣中。每個學習單元可以在本地進行多次梯度計算，然後再將壓縮後的梯度信息傳遞給外部優化器進行彙總。由於這一過程是異步的，即使某個單元出現故障，其他單元仍可以繼續訓練，避免了傳統方法中因單點故障導致的整體停滯。

通過實驗證明，解耦式 DiLoCo 在高硬件故障率的情況下仍能維持 88% 的良好利用率，而標準的數據並行訓練方法僅爲 27%。此外，這種新架構將跨數據中心所需的帶寬從 198 Gbps 大幅降低至 0.84 Gbps，使得在現有商業互聯網基礎設施下的全球分佈式訓練成爲可能。

值得一提的是，解耦式 DiLoCo 還具備自愈能力。在進行混沌工程測試時，該系統能夠在整個學習單元失效後繼續訓練，並在單元恢復後無縫重新整合。這種靈活性在多種硬件平臺上同樣適用，支持不同代數的 TPU 芯片在同一次訓練中協同工作，從而延長了舊設備的使用壽命，並緩解了硬件更新過程中可能出現的容量瓶頸。

劃重點：
🌟 解耦式 DiLoCo 通過分散訓練任務到多個異步學習單元，提高了大規模模型訓練的魯棒性。
🌐 該架構將跨數據中心帶寬需求降低至 0.84 Gbps，使得全球分佈式訓練更加可行。
🔧 具備自愈能力的解耦式 DiLoCo 在硬件故障情況下仍能維持高效訓練，且支持異構硬件的混合使用。

谷歌DeepMind推Lyria 3：AI音樂生成新標杆非商業用途免費開放

谷歌DeepMind正式發佈了其最新一代AI音樂生成模型Lyria 3，該模型現已作爲測試版（Beta）集成至Gemini應用，並向全球年滿 18 歲的用戶免費開放。 Lyria3 最爲引人注目的特點在於其全場景創作能力。即便用戶毫無音樂基礎，也能通過三種方式輕鬆生成音樂。用戶只需輸入自然語言提示，如“一首歡快的雷鬼音樂，適合海灘派對”或“一首關於太空探索的史詩電子樂”，模型便能迅速生成一首包含人聲、歌詞和樂器伴奏的完整 30 秒歌曲，且自動匹配描述的風格、情緒和節奏。

谷歌 DeepMind 推出解耦式 DiLoCo：提升異步訓練架構，容忍硬件故障

相關推薦

波士頓動力機器狗 “Spot” 新升級：搭載谷歌Gemini模型

谷歌開源大模型 Gemma 4 官宣在即：參數量翻 4 倍

谷歌DeepMind推Lyria 3：AI音樂生成新標杆非商業用途免費開放

谷歌 DeepMind CEO:警惕廣告侵蝕 AI 信任，谷歌暫無跟進 OpenAI 計劃

DeepMind與Anthropic CEO警示:入門級崗位正面臨裁撤風險，初級白領崗位或將減半

谷歌 DeepMind 推出解耦式 DiLoCo：提升異步訓練架構，容忍硬件故障

相關推薦

波士頓動力機器狗 “Spot” 新升級：搭載谷歌Gemini模型

谷歌開源大模型 Gemma 4 官宣在即：參數量翻 4 倍

谷歌DeepMind推Lyria 3：AI音樂生成新標杆 非商業用途免費開放

谷歌 DeepMind CEO:警惕廣告侵蝕 AI 信任，谷歌暫無跟進 OpenAI 計劃

DeepMind與Anthropic CEO警示:入門級崗位正面臨裁撤風險，初級白領崗位或將減半

谷歌DeepMind推Lyria 3：AI音樂生成新標杆非商業用途免費開放