在世界機器人大會上,阿里達摩院宣佈開源三項自研核心技術:VLA模型RynnVLA-001-7B、世界理解模型RynnEC以及機器人上下文協議RynnRCP。這一舉措旨在推動數據、模型與機器人本體的兼容適配,打通具身智能開發的完整流程。
具身智能領域正經歷快速發展,但仍面臨開發流程碎片化、數據模型與機器人本體適配困難等關鍵挑戰。達摩院將MCP(模型上下文協議)理念引入具身智能領域,首次提出並開源RCP(機器人上下文協議),致力於推動不同數據、模型與本體之間的無縫對接適配。
達摩院打造的RynnRCP是一套完整的機器人服務協議和框架,能夠實現從傳感器數據採集、模型推理到機器人動作執行的完整工作流程打通,幫助用戶根據具體應用場景輕鬆完成適配工作。RynnRCP目前已支持Pi0、GR00T N1.5等多款熱門模型,以及SO-100、SO-101等多種機械臂,支持範圍正在持續擴展。
RynnRCP架構解析:構建標準化連接橋樑
RynnRCP包含兩個核心模塊:RCP框架和RobotMotion。RCP框架負責建立機器人本體與傳感器的連接,提供標準化能力接口,實現不同傳輸層和模型服務之間的兼容性。RobotMotion則充當具身大模型與機器人本體控制之間的橋樑,能夠將離散的低頻推理命令實時轉換爲高頻連續控制信號,確保機器人運動的平滑性和物理約束符合性。
RobotMotion還提供了一體化仿真-真機控制工具,爲開發者提供便捷的上手體驗,支持任務規控、仿真同步、數據採集與回放、軌跡可視化等功能,有效降低策略遷移的技術門檻。
兩大開源模型:從視覺理解到世界感知
達摩院同時宣佈開源兩款具身智能大模型。RynnVLA-001是達摩院自主研發的基於視頻生成和人體軌跡預訓練的視覺-語言-動作模型。該模型的突出特點是能夠從第一人稱視角的視頻中學習人類操作技能,並將這些技能隱式遷移到機器人手臂操控中,使機械臂操作更加連貫、平滑,更接近人類自然動作。
世界理解模型RynnEC將多模態大語言模型引入具身世界,爲大模型賦予了理解物理世界的能力。該模型能夠從位置、功能、數量等11個維度全面解析場景中的物體,在複雜室內環境中實現精準的目標物體定位和分割。該模型的創新之處在於無需依賴3D模型,僅通過視頻序列就能建立連續的空間感知能力,同時支持靈活的交互操作。
產業生態佈局:構建開放協作平臺
據瞭解,達摩院正在具身智能領域進行積極投入,重點聚焦系統和模型研發,與多方合作共建產業基礎設施。合作範圍涵蓋硬件本體和標準組件適配、數據採集,以及DAMO開發者矩陣等技術社區建設,目標是拓展機器人產業空間,加速實際場景的商業化落地。
值得注意的是,達摩院在上月還開源了WorldVLA模型,首次實現世界模型與動作模型的融合,顯著提升了圖像與動作的理解與生成能力,獲得了業界廣泛關注。這一系列開源舉措表明,達摩院正通過技術開放共享的方式,推動整個具身智能行業的協同發展和技術進步。
開源鏈接:
機器人上下文協議RynnRCP
https://github.com/alibaba-damo-academy/RynnRCP
視覺-語言-動作模型 RynnVLA-001
https://github.com/alibaba-damo-academy/RynnVLA-001
世界理解模型 RynnEC
https://github.com/alibaba-damo-academy/RynnEC