近日,京東雲JoyBuilder模型開發平臺迎來關鍵升級,成功支撐業界頂尖模型GR00T N1.5完成了千卡級訓練。

此舉使JoyBuilder成爲行業首家支持具身智能千卡級LeRobot開源訓練框架的AI開發平臺,並且在訓練效率上實現了巨大飛躍,較開源社區版本提升了3.5倍。基於軟硬件的深度調優和算法層面的突破,JoyBuilder平臺大幅提升了模型訓練效率與穩定性,使得原本需要15小時完成的1億多數據千卡訓練,現在僅需22分鐘,顯著加速了具身智能邁向規模化落地的進程。

人工智能,機器人

爲了實現這一效率提升,京東雲AI Infra及相關團隊圍繞具身智能模型訓練,對JoyBuilder進行了全棧優化。在具身數據鏈路優化方面,平臺重構了數據預處理與加載流程,實現了CPU數據處理與GPU計算的異步執行,有效減少等待時間;針對海量具身小數據文件,自研的高性能並行文件系統雲海JPFS通過分佈式元數據管理與智能預取,在1024卡集羣上提供了超過400GB/s的讀取帶寬,保障數據持續高速供給。

在具身模型計算優化方面,團隊針對主流的VLA(視覺-語言-動作)模型的計算特點,從Attention層、Token裁剪和訓練後量化等多方面進行極致優化。此外,在具身模型基礎設施上,平臺搭建了3.2T RDMA後端網絡,基於多軌道優化、拓撲感知調度與智能震盪抑制,確保千卡間集合通信的高吞吐與低延遲,支持長週期訓練穩定運行,並通過雲原生的AI數據湖優化了數據調度與流水線,提升端到端處理效率。

通過全鏈路的優化,JoyBuilder平臺支持業界當前最主流的LeRobot訓練數據最新協議,確立了其在具身智能AI開發平臺領域的領先地位。