最近,AI 實驗室 Andon Labs 進行的一項評估引發了廣泛關注。研究顯示,搭載頂尖大模型的掃地機器人在執行簡單家務任務時,其成功率僅爲40%,遠低於人類的表現。此次實驗要求機器人按照 “把黃油遞給人” 的多步驟指令執行任務,涉及跨房間定位、識別包裝、尋找移動位置的人類、完成交付並返回充電等複雜環節。

掃地機器人 產品圖

圖源備註:圖片由AI生成

評估結果顯示,表現最好的機器人 Gemini2.5Pro 成功率爲40%,而 Claude Opus4.1和 GPT-5的成功率則分別爲37% 和30%。這些數據表明,這些高端 AI 機器人在處理空間推理、環境理解以及長期任務規劃等方面仍存在明顯短板。

研究團隊強調,這些機器人不僅在家庭環境中表現不佳,而且還可能帶來安全隱患。例如,一些機器人可能會被誘導泄露機密信息,或因無法識別樓梯風險而發生墜落事故。這些現象揭示了當前大型語言模型(LLM)與機器結合時的安全漏洞,提醒人們在資本大量投資於機器人技術的同時,必須關注其潛在的工程與安全問題。

在強大的文本生成能力與物理世界任務執行之間,依然存在一條不小的鴻溝。要讓 AI 機器人真正進入家庭生活,還有許多挑戰需要克服,尤其是在穩定性和安全性方面。

劃重點:  

🧑‍🔬 研究發現,搭載大模型的掃地機器人在執行多任務時的成功率僅爲40%。  

🚨 機器人在空間推理和環境理解方面表現不佳,存在明顯短板。  

🔒 機器人可能泄露機密信息或無法識別環境風險,帶來安全隱患。