近日,騰訊 Robotics X 實驗室與混元團隊共同發佈並開源了 HY-Embodied-0.5-X,這是一款專爲具身任務優化的多模態大模型,旨在提升機器人在真實環境中的智能交互能力。該模型基於 HY-Embodied-0.5-MoT-2B 架構,強調機器人在 “看懂、想清、做到” 方面的核心能力,尤其在精細操作、空間推理、動作預測及風險判斷等方面表現優越。

HY-Embodied-0.5 系列包含兩個主要版本:MoT-2B 和 MoE-32B。MoT-2B 設計爲端側部署,具備實時響應能力,而 MoE-32B 則具有更大規模的參數,支持更復雜的任務處理。HY-Embodied-0.5-X 尤其專注於機器人在真實交互中的應用,推動從 “看懂” 走向 “幹活”,並且爲家庭服務和桌面操作等實際應用場景提供強有力的支持。
在數據方面,HY-Embodied-0.5-X 結合了自採的機器人第一視角操作數據和開源具身數據,構建出高質量的訓練數據集。該數據集不僅涵蓋了操作理解和任務推理,還增強了模型對模糊指令的理解能力。此外,團隊引入了思維鏈標註和數據質量閉環,確保模型訓練的有效性和數據的高質量。
在訓練策略上,HY-Embodied-0.5-X 採用分階段迭代的方法,首先通過小規模高質量數據驗證訓練配置,然後逐步擴展至大規模訓練,以提升訓練效率和穩定性。該模型在空間理解、長程規劃和具身交互方面展現出顯著優勢,使機器人能夠更準確地理解環境並完成複雜任務。
HY-Embodied-0.5-X 的推出標誌着騰訊在具身智能領域的又一重要進展,有望在機器人與人類的互動中,推動技術的進一步發展與應用。
劃重點:
🌟 HY-Embodied-0.5-X 是一款新發布的多模態大模型,專爲機器人智能交互優化。
🤖 該模型結合多種數據源,提升了機器人在真實環境中的操作理解和執行能力。
🔄 分階段訓練策略確保了模型的高效訓練和穩定表現,適用於多種家庭和桌面場景。
