在人工智能邁向具身智能的賽道上,機器人正迎來一場“去碎片化”的變革。6月24日,RoboScience 機器科學正式發佈了通用具身大模型 Visics,並披露了其核心技術架構 VLOA(Vision-Language-Object-Action)。這一進展意味着機器人不再侷限於針對單一任務的重複訓練,而是具備了跨本體、跨物體、跨任務的通用操作能力。

過去,具身智能行業普遍採取“動作復刻”模式,即讓機器人死記硬背特定的關節運動軌跡。這種方式最大的痛點在於通用性極差:換一臺硬件、換一個物體,模型的能力就徹底“失效”。RoboScience 機器科學創始人兼 CEO 田野指出,機器人要真正走進真實世界,必須解決泛化能力差和長程任務執行難的問題。

image.png

爲此,Visics 模型引入了“物體3D 點雲軌跡”作爲統一的中間表徵標準。Visics 內部採用雙引擎架構:具身世界模型負責通過海量視頻預訓練,理解物體在物理世界中的運動規律與因果關係;而通用操作模型則將預判的軌跡轉化爲具體的硬件控制指令。這種分層解耦的設計,使得機器人能夠像人類一樣,先“看懂”物體的運動邏輯,再靈活調用不同的軀體去完成任務。

爲了破解具身智能數據獲取成本高、效率低的行業難題,RoboScience 還構建了一套“仿真+視頻”的雙數據飛輪。依託自研的高精度仿真引擎 RoboMirage,結合自動化的數據標註管線,其單條數據的獲取成本已降至傳統方案的百分之一甚至更低。目前,該公司以每週數十萬小時的數據增長速度,正向着2026年構建1T 規模高質量數據集的目標邁進。

image.png

在商業落地方面,RoboScience 選擇了從“物體維度”切入。聯合創始人汪濤表示,公司優先關注海量 SKU 和多品類操作需求高的商超、物流與康養場景,而非直接在工業領域與現有自動化方案硬碰硬。目前,該公司的技術已在零售與物流等多個領域開展試點,計劃於年內實現標準化機器人本體產品的量產。

從曾經的單一任務執行者,到如今具備跨場景泛化能力的“智能體”,RoboScience 的嘗試折射出具身智能從實驗室走向產業深水區的趨勢。隨着這種軟硬一體化解決方案的成熟,機器人或將真正具備處理複雜動態環境的“底氣”,在更多生產與服務一線發揮價值。