亞馬遜網絡服務(AWS)對其機器學習和 AI 模型訓練與推理平臺 SageMaker 進行了重磅升級,旨在提升用戶體驗並增強其市場競爭力。這一升級增加了新型可觀察性功能、連接編碼環境以及 GPU 集羣性能管理等多項新特性。
SageMaker 平臺自2024年起,已轉變爲一個統一的數據源集成中心,集成了多種機器學習工具。此次更新的主要目標是幫助用戶更清晰地瞭解模型性能下降的原因,同時提供更大的控制權來管理計算資源的分配。
AWS 的 SageMaker 總經理 Ankur Mehrotra 在接受《VentureBeat》採訪時表示,許多新功能的開發靈感均來源於用戶反饋。他提到,開發生成 AI 模型的客戶常常面臨的問題是,當出現問題時,很難找到故障發生的具體層面。
爲了幫助解決這一問題,SageMaker HyperPod 可觀察性功能的引入,使得工程師能夠檢查計算層、網絡層等各個層面的狀況。一旦模型性能下降,系統能夠即時發出警報,並在儀表盤上發佈相關指標。
除了可觀察性功能,SageMaker 還新增了本地集成開發環境(IDE)連接功能,允許工程師將本地編寫的 AI 項目無縫部署到平臺上。Mehrotra 指出,以前本地編碼的模型只能在本地運行,這使得想要進行擴展的開發者面臨不小挑戰。現在,AWS 推出了安全遠程執行功能,使得用戶可以在本地或管理 IDE 上開發,並與 SageMaker 連接,靈活應對不同的任務。
AWS 在2023年12月推出了 SageMaker HyperPod,旨在幫助客戶管理訓練模型的服務器集羣。HyperPod 能夠根據需求模式調度 GPU 使用,幫助客戶有效平衡資源和成本。AWS 表示,許多客戶希望在推理任務中也能夠實現類似的服務。由於推理任務通常在白天進行,而訓練任務則多在非高峯時段進行,因此這一新功能將爲開發者提供更大的靈活性。
雖然亞馬遜在基礎模型方面可能不如谷歌和微軟那樣引人注目,但 AWS 依然致力於爲企業構建 AI 模型、應用或代理提供堅實的基礎設施支撐。除了 SageMaker,AWS 還推出了 Bedrock 平臺,專門爲應用和代理的構建而設計。隨着 SageMaker 的不斷升級,AWS 在企業 AI 領域的競爭力愈加明顯。
劃重點:
🌟 AWS 對 SageMaker 平臺進行重大升級,增加了可觀察性和本地 IDE 連接功能。
⚙️ SageMaker HyperPod 功能幫助用戶更好地管理服務器集羣,提高資源利用率。
🚀 AWS 在 AI 基礎設施領域的佈局,將增強其在市場中的競爭優勢。