近日,微軟宣佈正在建設一系列跨越洲際的數據中心超級集羣,以應對未來人工智能模型的訓練需求。這些新設施將連接多個數據中心,通過高速網絡實現數據的高效傳輸,目標是支持高達數百萬億個參數的 AI 模型訓練。
10月,微軟在威斯康星州的 Mount Pleasant 數據中心校園啓動了首個節點,連接到位於喬治亞州亞特蘭大的設施。這些數據中心並非普通設施,微軟稱之爲 “Fairwater” 集羣。它們爲兩層建築,採用直連芯片的液體冷卻技術,幾乎不消耗水資源。未來,微軟計劃將這些集羣擴展到數十萬臺多樣化的 GPU,以應對不同的工作負載需求。
通過互聯數據中心,微軟能夠訓練更大規模的模型,並選擇在土地成本低、氣候宜人和電力資源豐富的地區建設新設施。儘管微軟尚未透露連接這兩座數據中心所使用的具體技術,但業內有多種選擇。包括 Cisco 的51.2Tbps 路由器和 Broadcom 的新款 Jericho4硬件,這些設備可以有效連接距離達1000公里的數據中心。
同時,Nvidia 也在積極推動網絡技術的發展,以應對 AI 訓練的需求。微軟在高性能計算環境中普遍採用 Nvidia 的 InfiniBand 網絡協議,顯示了其在高效數據傳輸方面的決心。在 AI 工作負載的分佈上,減少帶寬和延遲問題仍然是研究者們關注的重點。
AI 領域的進展顯著。早前,谷歌的 DeepMind 團隊發佈了一項報告,表明通過在訓練過程中壓縮模型和合理安排數據中心之間的通信,可以克服許多挑戰。
劃重點:
🌐 微軟正在構建跨洲數據中心超級集羣,以支持未來大規模 AI 模型的訓練。
💧 新設施採用高效的液體冷卻技術,幾乎不消耗水資源。
🚀 多種先進網絡技術將連接這些數據中心,以提高 AI 訓練的效率。
