在2024年 AWS re:Invent 大會上,亞馬遜網絡服務(AWS)宣佈推出基於 Trainium2芯片的 Amazon Elastic Compute Cloud(EC2)實例,正式提供給用戶。這新實例在價格性能方面相比於上一代基於 GPU 的 EC2實例提升了30-40%。AWS 首席執行官馬特・加曼表示:“,我很高興地宣佈 Trainium2驅動的 Amazon EC2Trn2實例的正式發佈。”
除了 Trn2實例外,AWS 還推出了 Trn2UltraServers,並展示了下一代 Trainium3AI 芯片。Trn2實例配備了16個 Trainium2芯片,能夠提供高達20.8petaflops 的計算性能,專爲訓練和部署具有數十億參數的大型語言模型(LLM)而設計。
Trn2UltraServers 則將四個 Trn2服務器組合成一個系統,提供高達83.2petaflops 的計算能力,以實現更高的可擴展性。這些 UltraServers 擁有64個互聯的 Trainium2芯片,能夠滿足客戶在訓練和推理過程中對計算能力的需求。AWS 計算與網絡副總裁大衛・布朗表示:“Trainium2實例和 Trn2UltraServers 的推出爲客戶提供瞭解決最複雜 AI 模型所需的計算能力。”
AWS 與 Anthropic 公司合作,啓動了名爲 Project Rainier 的大規模 AI 計算集羣,採用數十萬個 Trainium2芯片。這一基礎設施將支持 Anthropic 的開發,包括對其旗艦產品 Claude 的優化,以在 Trainium2硬件上運行。
另外,Databricks 和 Hugging Face 也與 AWS,利用 Trainium 的能力來提高他們 AI 產品的性能和成本效率。Databricks 計劃利用這些硬件來增強其 Mosaic AI 平臺,而 Hugging Face 則將 Trainium2集成到其 AI 開發和部署工具中。
Trainium2的其他客戶包括 Adobe、Poolside 和高通。加曼提到,Adobe 在使用 Trainium2進行 Firefly 推理模型的早期測試後,結果非常令人滿意,預計會節省大量。“Poolside 預計能與其他選擇相比節省40%”,他補充道。“高通正在利用 Trainium2開發能夠在雲中訓練並在邊緣部署的 AI 系統。”
此外,AWS 還預告其 Trainium3芯片,該芯片採用3納米工藝製程。基於 Trainium3的 UltraServers 預計將於2025年底推出,旨在提供比 Trn2UltraServers 高出四倍的性能。
爲了優化 Trainium 硬件的使用,AWS 還推出了 Neuron SDK,這是一個軟件工具套件,幫助開發者優化模型以在 Trainium 芯片上實現最佳性能。該 SDK 支持 JAX 和 PyTorch 等框架,使客戶能夠在最小代碼修改的情況下將軟件集成到現有工作流程中。
目前,Trn2實例已在美國東部(俄亥俄州)地區提供,未來將擴展到其他地區。UltraServers 目前處於預覽階段。
劃:
🌟 AWS 推出 Trainium2實例相比於舊版 GPU 實例性能提升30-40%。
💡 Trn2UltraServers 將多個 Trn2服務器結合,提供更強的計算能力,滿足大型 AI 模型需求。
🚀 AWS 與多家公司合作,推動 AI 技術的應用,助力客戶在成本和性能上獲得優勢。