最近、テンセント Robotics X ラボはテンセント Hunyuanチームと共同で、身体知能専用の基本モデル「HY-Embodied-0.5」を正式にリリースしました。この取り組みは、汎用的な視覚言語モデル(VLM)が詳細な3次元空間認識および物理的相互作用能力に欠けており、現実世界での応用が難しい業界の課題を解決することを目的としています。これにより、大規模モデルの認知プロセスがロボット制御分野に実質的に拡張されたことを示しています。
このシリーズモデルは、汎用ベースモデルの単純な微調整ではなく、アーキテクチャからトレーニング方式に至るまで完全な再構築です。チームは同時に2つの主力モデルを発表しました:MoT-2B(総パラメータ4B、アクティブ2B)はエッジ側のリアルタイム応答を主に扱い、MoE-32B(総パラメータ407B、アクティブ32B)は最適な推論性能を目指しています。
技術面では、チームは視覚と言語モードのパラメータを共有しない混合トランスフォーマー(MoT)アーキテクチャを独自に開発し、本物の解像度の視覚エンコーダー「HY-ViT2.0」と視覚潜在トークン機構を組み合わせることで、マルチモーダルトレーニングにおける小モデルの災害的忘却を効果的に回避しました。トレーニング面では、1億以上の高品質な身体知能専用データに依存し、拒否サンプリング微調整、強化学習、オンライン蒸留などの多段階後のトレーニング戦略を組み合わせ、モデルの思考プロセスを自律的に進化させました。
性能検証によると、MoT-2Bは感覚、推論、計画を含む22項目の権威ある評価で16項目で最優秀を獲得し、Qwen3-VL-4BやRoboBrain2.5などの同パラメータ競合モデルを上回っています。フラッグシップ版のMoE-A32Bも、Gemini3.0Proなどの国際的な基準と対等に競えることが確認されています。
実機テストでは、このベースモデルを搭載したロボットがパッキングや積み重ねなどのタスクで主流のベースラインモデルよりも優れたパフォーマンスを示しました。この進展は、身体知能が仮想シミュレーションから物理的な作業へと移行するための高性能な下位ベースを提供しています。
