谷歌DeepMind近日發佈博客文章,正式推出全新的Gemini Robotics On-Device本地化機器人AI模型。該模型採用視覺-語言-動作(VLA)架構,能夠在無需雲端支持的情況下實現實體機器人的精準控制。
新模型的最大亮點在於完全獨立運行於機器人設備本地,實現了低延遲響應能力。這一特性使其特別適用於網絡連接不穩定的環境,如醫療場所等關鍵應用場景。
在操作精度方面,該模型展現出令人印象深刻的能力,能夠完成打開包袋拉鍊、疊衣服、繫鞋帶等高難度精細操作任務。系統採用雙機械臂設計,目前已適配ALOHA、Franka FR3及Apollo人形機器人平臺。
谷歌爲開發者提供了完整的Gemini Robotics SDK工具包,大幅降低了定製門檻。開發者僅需通過50-100次任務演示即可爲機器人定製全新功能,同時系統還支持MuJoCo物理模擬器進行預先測試。
在安全性方面,該系統建立了完善的保障機制。通過Live API實施語義安全檢測,確保機器人行爲的合規性,而底層安全控制器則負責精確管理動作的力度與速度,防止意外傷害。
項目負責人Carolina Parada表示:"該系統充分借鑑了Gemini的多模態世界理解能力,就如同Gemini能夠生成文本、代碼和圖像一樣,現在它也能生成精準的機器人動作。"
目前,該模型僅面向可信測試計劃的開發者開放。值得注意的是,該模型基於Gemini2.0架構開發,相比谷歌最新的Gemini2.5版本存在一定技術代差。