Google DeepMind正式發佈其新一代機器人AI模型Gemini Robotics On-Device,標誌着機器人AI技術邁向更高效、更獨立的里程碑。這一模型不僅能夠在無互聯網連接的情況下在機器人本地運行,還展現出強大的通用性和任務適應能力,爲工業、倉儲及家庭服務機器人領域帶來革命性突破。
突破雲端限制,機器人AI本地化運行
Gemini Robotics On-Device是一款基於Google Gemini2.0打造的視覺-語言-動作(VLA)模型,最大特點是完全運行於機器人本地硬件,無需依賴雲端計算資源。這解決了傳統雲端機器人系統在網絡不穩定環境下的延遲和可靠性問題。DeepMind高級總監Carolina Parada表示:“該模型小巧高效,能夠直接運行於機器人硬件,確保低延遲和離線環境下的穩定表現。”
通過本地化運行,Gemini Robotics On-Device大幅提升了機器人在網絡受限場景(如工廠、倉庫或偏遠地區)的實用性。測試顯示,其性能接近雲端Gemini Robotics模型,同時在多項基準測試中超越其他本地AI模型,展現出強大的競爭力。
通用性與靈活性:從50次演示到新任務
Gemini Robotics On-Device不僅在性能上令人矚目,其任務適應能力也堪稱亮點。DeepMind宣稱,該模型僅需50至100次演示即可快速適應新任務,例如解拉鍊、疊衣服或進行工業裝配。
該模型最初針對ALOHA機器人訓練,但已成功適配雙臂Franka FR3機器人和Apptronik的Apollo人形機器人,展現出跨硬件平臺的通用性。開發者可通過自然語言指令控制和微調模型,使其輕鬆應對複雜雙臂任務或動態環境中的新對象。Parada強調:“生成式AI讓機器人能夠從少量數據中泛化,顯著加速了在複雜場景中的部署。”
開放開發者生態,SDK賦能創新
爲加速Gemini Robotics On-Device的行業應用,Google DeepMind同步發佈了一款軟件開發工具包(SDK),現已通過GitHub向“受信任測試者”計劃開放申請。開發者可利用SDK在Google的MuJoCo物理模擬器或現實環境中測試和微調模型。這一舉措標誌着DeepMind首次向開發者開放VLA模型的微調權限,爲機器人AI的定製化應用鋪平道路。
SDK支持開發者通過少量演示快速訓練機器人完成特定任務,例如將魔方放入袋子或處理精細的工業操作。DeepMind表示,該模型在未見過的新場景和對象上表現出色,例如在工業傳送帶上完成裝配任務,顯示出強大的泛化能力。
安全與行業前景:機器人AI的下一步
在安全方面,DeepMind強調Gemini Robotics On-Device通過全面的安全措施和與專家、政策制定者的合作,力求降低潛在風險。 與此同時,該模型的發佈也被視爲Google與Nvidia GR00T、OpenAI RT-2等競爭對手在通用機器人AI領域的激烈角逐的一部分。
從倉庫機器人到家用服務機器人,Gemini Robotics On-Device的本地化運行能力和快速學習特性爲其在多場景中的廣泛應用奠定了基礎。AIbase認爲,這一技術不僅將降低機器人部署成本,還可能推動AI驅動的自動化進入更多日常生活場景。
模型入口:https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/