この度、JD CloudのJoyBuilderモデル開発プラットフォームは重要なアップグレードを実施し、業界トップクラスのモデルGR00T N1.5の千カートレーニングを成功裏にサポートしました。

これにより、JoyBuilderは業界で初めて具身知能向けの千カーレベルのLeRobotオープンソーストレーニングフレームワークをサポートするAI開発プラットフォームとなり、トレーニング効率が大幅に向上し、オープンソースコミュニティバージョンに比べて3.5倍の性能向上を達成しました。ソフトウェアとハードウェアの深い最適化およびアルゴリズム面での突破により、JoyBuilderプラットフォームはモデルトレーニングの効率と安定性を大きく向上させ、もともと15時間かかっていた1億以上のデータの千カートレーニングが今では22分で完了するようになりました。これにより、具身知能の規模化された展開へのプロセスが顕著に加速されました。

人工知能、ロボット

この効率向上を実現するために、JD Cloud AI Infraおよび関連チームは具身知能モデルトレーニングに焦点を当て、JoyBuilderを全スタックにわたって最適化しました。具身データリンクの最適化においては、プラットフォームはデータ前処理と読み込みプロセスを再構築し、CPUのデータ処理とGPU計算を非同期で実行することで、待機時間を効果的に短縮しました。大量の具身小ファイルに対しては、自社開発の高性能並列ファイルシステム「雲海JPFS」は、分散型メタデータ管理とスマートプリフェッチ機能により、1024カードクラスターで400GB/sを超える読み取り帯域を提供し、データの継続的な高速供給を確保しています。

具身モデル計算の最適化においては、チームは主流のVLA(ビジュアル-言語-アクション)モデルの計算特性を考慮し、Attention層、Tokenのカットオフ、トレーニング後の量子化など複数の面で極限まで最適化を行いました。また、具身モデルインフラストラクチャにおいて、プラットフォームは3.2T RDMAバックエンドネットワークを構築し、マルチトラック最適化、トポロジ感知スケジューリング、スマート振動抑制などの技術を用いて、千カード間の集約通信の高スループットと低遅延を確保し、長期間のトレーニングが安定して実行できるようにしました。さらに、クラウドネイティブなAIデータレイクの最適化を通じて、データのスケジューリングとパイプラインの効率を向上させ、エンドツーエンドの処理効率を向上させました。

全チェーンの最適化を通じて、JoyBuilderプラットフォームは現在業界で最も主流であるLeRobotトレーニングデータの最新プロトコルをサポートし、具身知能向けAI開発プラットフォーム分野におけるリーダー的地位を確立しました。