近日,銀河通用科技公司聯合北京智源人工智能研究院、北京大學和香港大學,隆重推出了名爲 GraspVLA 的端到端具身抓取基礎大模型。這一模型的問世標誌着具身智能技術的一次重大突破,具備了感知、學習和環境交互的綜合能力。
GraspVLA 的訓練過程包括預訓練和後訓練兩個階段。其中,預訓練階段基於十億幀的數據進行,確保了模型在多種場景下的高泛化性與零樣本測試的能力。這意味着,模型能夠在未見過的環境和任務中,仍然展現出卓越的抓取性能。這種能力的提升,預示着未來智能機器人在實際應用中的靈活性和適應性將大大增強。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
官方還發布了七大泛化 “金標準”,這爲行業提供了新的評估依據。這些標準不僅爲開發者提供了明確的目標,也爲科研人員在模型優化和應用實踐中提供了方向。銀河通用表示,GraspVLA 的推出將爲機器人的自主操作、物體識別及複雜環境下的互動提供強有力的支持。
隨着人工智能技術的不斷進步,具身抓取技術的應用前景廣闊,GraspVLA 作爲這一領域的先行者,將在倉儲物流、製造業、醫療服務等多個行業發揮重要作用。未來,機器人將不再侷限於簡單的重複性勞動,它們將能夠學習和適應不同的環境,完成更復雜的任務,甚至與人類進行更爲自然的互動。
在本次發佈會上,參與的各大機構也表示,未來將繼續致力於推動這一領域的發展,探索更多實用的應用場景。GraspVLA 的發佈,象徵着智能機器人向 “懂得抓取” 的新時代邁出了堅實的一步。
