騰訊推出具身多模態大模型 HY-Embodied-0.5-X，賦能機器人智能交互

近日，騰訊 Robotics X 實驗室與混元團隊共同發佈並開源了 HY-Embodied-0.5-X，這是一款專爲具身任務優化的多模態大模型，旨在提升機器人在真實環境中的智能交互能力。該模型基於 HY-Embodied-0.5-MoT-2B 架構，強調機器人在 “看懂、想清、做到” 方面的核心能力，尤其在精細操作、空間推理、動作預測及風險判斷等方面表現優越。

HY-Embodied-0.5 系列包含兩個主要版本：MoT-2B 和 MoE-32B。MoT-2B 設計爲端側部署，具備實時響應能力，而 MoE-32B 則具有更大規模的參數，支持更復雜的任務處理。HY-Embodied-0.5-X 尤其專注於機器人在真實交互中的應用，推動從 “看懂” 走向 “幹活”，並且爲家庭服務和桌面操作等實際應用場景提供強有力的支持。

在數據方面，HY-Embodied-0.5-X 結合了自採的機器人第一視角操作數據和開源具身數據，構建出高質量的訓練數據集。該數據集不僅涵蓋了操作理解和任務推理，還增強了模型對模糊指令的理解能力。此外，團隊引入了思維鏈標註和數據質量閉環，確保模型訓練的有效性和數據的高質量。

在訓練策略上，HY-Embodied-0.5-X 採用分階段迭代的方法，首先通過小規模高質量數據驗證訓練配置，然後逐步擴展至大規模訓練，以提升訓練效率和穩定性。該模型在空間理解、長程規劃和具身交互方面展現出顯著優勢，使機器人能夠更準確地理解環境並完成複雜任務。

HY-Embodied-0.5-X 的推出標誌着騰訊在具身智能領域的又一重要進展，有望在機器人與人類的互動中，推動技術的進一步發展與應用。

劃重點：
🌟 HY-Embodied-0.5-X 是一款新發布的多模態大模型，專爲機器人智能交互優化。
🤖 該模型結合多種數據源，提升了機器人在真實環境中的操作理解和執行能力。
🔄 分階段訓練策略確保了模型的高效訓練和穩定表現，適用於多種家庭和桌面場景。

全面超越 Gemini-3.1Pro！Qwen3.5-Omni 震撼發佈:215項 SOTA 開啓全感官 AI 時代

通義實驗室發佈多模態大模型Qwen3.5-Omni，實現理解力、交互感和任務執行力的跨越式進化，推動AI從“屏幕助手”邁向“理解物理世界的智能體”。該模型採用原生“全模態”架構，能無縫處理文本、圖像、音頻和視頻輸入，在音視頻分析、推理、對話及翻譯測試中表現卓越。

阿里通義發佈 Fun-CineForge：開源影視級配音大模型，攻克音畫同步難題

阿里通義實驗室發佈並開源了Fun-CineForge模型，旨在解決AI配音中的口型不同步、情感缺失及多角色音色不一致等問題。該模型創新引入“時間模態”概念，通過精準時間戳控制，確保語音與畫面同步，並同步開放高質量數據集構建方法。

騰訊推出具身多模態大模型 HY-Embodied-0.5-X，賦能機器人智能交互

相關推薦

騰訊發佈 HY-Embodied-0.5具身模型，22項評測16項最佳刷新行業紀錄

阿里ATH事業羣HappyHorse模型登頂AI視頻榜，Elo積分力壓Seedance2.0

美團發佈原生多模態 LongCat-Next：視覺語音實現底層統一

全面超越 Gemini-3.1Pro！Qwen3.5-Omni 震撼發佈:215項 SOTA 開啓全感官 AI 時代

阿里通義發佈 Fun-CineForge：開源影視級配音大模型，攻克音畫同步難題

​騰訊推出具身多模態大模型 HY-Embodied-0.5-X，賦能機器人智能交互

相關推薦

騰訊發佈 HY-Embodied-0.5具身模型，22項評測16項最佳刷新行業紀錄

阿里ATH事業羣HappyHorse模型登頂AI視頻榜，Elo積分力壓Seedance2.0

美團發佈原生多模態 LongCat-Next：視覺語音實現底層統一

全面超越 Gemini-3.1Pro！Qwen3.5-Omni 震撼發佈:215項 SOTA 開啓全感官 AI 時代

​阿里通義發佈 Fun-CineForge：開源影視級配音大模型，攻克音畫同步難題

騰訊推出具身多模態大模型 HY-Embodied-0.5-X，賦能機器人智能交互

阿里通義發佈 Fun-CineForge：開源影視級配音大模型，攻克音畫同步難題