最近、騰訊 Robotics X ラボと混元チームは、HY-Embodied-0.5-X を共同で公開し、オープンソース化しました。これは身体性タスクに最適化されたマルチモーダル大規模モデルであり、ロボットが現実環境でのスマートなインタラクション能力を向上させることが目的です。このモデルは HY-Embodied-0.5-MoT-2B の構造に基づいており、「見る・考える・行う」のコアな能力に重点を置いています。特に細かい操作、空間推論、動作予測およびリスク判断において優れた性能を発揮しています。

HY-Embodied-0.5 シリーズには主に2つのバージョンがあります:MoT-2B と MoE-32B。MoT-2B はエッジデバイスに配置されるように設計されており、リアルタイム応答機能を持っています。一方、MoE-32B はより大きなパラメータ数を持っており、より複雑なタスク処理に対応できます。HY-Embodied-0.5-X は特にロボットの現実的なインタラクションにおける応用に焦点を当てており、「理解する」から「作業を行う」へと進歩し、家庭サービスやデスクトップ操作などの実際のシナリオに対して強力なサポートを提供します。
データ面では、HY-Embodied-0.5-X は自社で取得したロボットの第一人称の操作データとオープンソースの身体性データを統合し、高品質なトレーニングデータセットを作成しています。このデータセットは操作理解やタスク推論だけでなく、曖昧な指示の理解能力にも強化されています。さらに、チームは思考チェーンのラベリングとデータ品質のフィードバックループを導入し、モデルトレーニングの効果とデータの高品質を確保しています。
トレーニング戦略では、HY-Embodied-0.5-X は段階的反復方法を使用しており、まず小規模で高品質なデータでトレーニング設定を検証し、その後徐々に大規模なトレーニングに拡張することで、トレーニング効率と安定性を向上させています。このモデルは空間理解、長距離計画、身体性インタラクションにおいて顕著な優位性を示しており、ロボットが環境をより正確に理解し、複雑なタスクを遂行できるようになります。
HY-Embodied-0.5-X の登場は、騰訊が身体性インテリジェンス分野での新たな重要な進展を示すものであり、ロボットと人間の相互作用において、技術のさらなる発展と応用を促すことが期待されます。
ポイント:
🌟 HY-Embodied-0.5-X は新しく公開されたマルチモーダル大規模モデルであり、ロボットの知能的なインタラクションに最適化されています。
🤖 このモデルは多様なデータソースを統合し、ロボットが現実環境での操作理解和実行能力を向上させます。
🔄 段階的なトレーニング戦略により、モデルの効率的なトレーニングと安定したパフォーマンスを確保し、さまざまな家庭やデスクトップのシナリオに適応します。
