今天,NVIDIA(英偉達) 宣佈,與 xAI 合作打造的 Colossus 超級計算機集羣正式上線,這可是全球最強AI訓練集羣Colossus,整整由10萬顆 NVIDIA Hopper GPU 組成。

這個龐然大物之所以能達到這樣的規模,得益於 NVIDIA Spectrum-X 以太網網絡平臺的支持。這個平臺專門爲多租戶、超大規模的 AI 工廠設計,能夠通過標準以太網實現遠程直接內存訪問,提供卓越的性能。
Colossus 主要用於訓練 xAI 的 Grok 系列大型語言模型,同時還爲 X Premium 用戶提供聊天機器人服務。更令人興奮的是,xAI 正在計劃將 Colossus 的規模翻倍,屆時將達到20萬顆 NVIDIA Hopper GPU。
NVIDIA 的高級副總裁 Gilad Shainer 表示,AI 已經成爲各行各業的關鍵需求,因此對性能、安全性、可擴展性和成本效率的要求也在不斷提升。而 Spectrum-X 平臺的出現,則爲像 xAI 這樣的創新者提供了更快的數據處理、分析和執行能力,從而加速 AI 解決方案的開發、部署和上市時間。
埃隆・馬斯克也對此表示讚賞,他稱 Colossus 爲世界上最強大的訓練系統,稱讚了 xAI 團隊、NVIDIA 以及他們的衆多合作伙伴的努力。值得一提的是,Colossus 的搭建過程相當高效,僅用了122天就完成,而一般情況下,類似規模的系統可能需要數月甚至數年的時間才能完成。從第一臺機架進入到培訓開始,整個過程只花了19天。
在這個超級計算機的支持下,Spectrum-X 平臺可以提供高達400Gbps 的帶寬,顯著提高數據傳輸速率,降低延遲。這個特性對那些需要快速數據處理和實時分析的企業至關重要。此外,Spectrum-X 還經過優化,專門支持 AI 應用,使數據路由和管理更爲智能,從而提升整體系統性能。
Colossus 架構的設計旨在高效擴展,以應對現代應用產生的海量數據。同時,Spectrum-X 還關注可持續發展,力求在維持高性能的同時,減少數據中心的能源消耗,幫助組織降低碳足跡。
劃重點:
🌟 Colossus 超級計算機由100,000個 NVIDIA Hopper GPU 組成,正在訓練大型語言模型,並計劃擴大至200,000個 GPU。
⚡ Spectrum-X 網絡平臺提供高達400Gbps 的帶寬,優化了數據傳輸和實時分析能力。
🌱 該平臺關注可持續性,旨在減少數據中心的能源消耗,同時保持高性能。
