最新研究：大模型驅動的掃地機器人多任務表現不佳，成功率僅 40%

最近，AI 實驗室 Andon Labs 進行的一項評估引發了廣泛關注。研究顯示，搭載頂尖大模型的掃地機器人在執行簡單家務任務時，其成功率僅爲40%，遠低於人類的表現。此次實驗要求機器人按照 “把黃油遞給人” 的多步驟指令執行任務，涉及跨房間定位、識別包裝、尋找移動位置的人類、完成交付並返回充電等複雜環節。

掃地機器人產品圖

圖源備註：圖片由AI生成

評估結果顯示，表現最好的機器人 Gemini2.5Pro 成功率爲40%，而 Claude Opus4.1和 GPT-5的成功率則分別爲37% 和30%。這些數據表明，這些高端 AI 機器人在處理空間推理、環境理解以及長期任務規劃等方面仍存在明顯短板。

研究團隊強調，這些機器人不僅在家庭環境中表現不佳，而且還可能帶來安全隱患。例如，一些機器人可能會被誘導泄露機密信息，或因無法識別樓梯風險而發生墜落事故。這些現象揭示了當前大型語言模型（LLM）與機器結合時的安全漏洞，提醒人們在資本大量投資於機器人技術的同時，必須關注其潛在的工程與安全問題。

在強大的文本生成能力與物理世界任務執行之間，依然存在一條不小的鴻溝。要讓 AI 機器人真正進入家庭生活，還有許多挑戰需要克服，尤其是在穩定性和安全性方面。

劃重點:
🧑‍🔬 研究發現，搭載大模型的掃地機器人在執行多任務時的成功率僅爲40%。
🚨 機器人在空間推理和環境理解方面表現不佳，存在明顯短板。
🔒 機器人可能泄露機密信息或無法識別環境風險，帶來安全隱患。

打破專用模型桎梏！谷歌 DeepMind 發佈 GenCeption，一個 AI 搞定五大視覺任務

谷歌DeepMind推出GenCeption模型，將視頻生成AI逆向改造爲視覺分析引擎，單一模型即可同時完成深度估計、圖像分割、3D姿態估計等五項核心視覺任務。模型基於阿里通義萬相Wan2.1框架訓練，一次前向傳播實現預測，打破任務孤立格局。

Anthropic Fable 5 訓練成本三倍於開源模型，未來面臨挑戰

Wojciech Gryc 分析指出，Anthropic 的 Fable 5 面臨來自中國開源模型的市場競爭：Moonshot 的 Kimi K3 和阿里 Qwen 3.8 性能與之相當，且都將開源權重。他強調，雖然訓練前沿模型的主要成本是研究人員與算力，但模型訓練完成後，推理成本纔是真正的開支；每次調用 API 消耗大量 GPU 資源，這纔是持續的商業負擔。

最新研究：大模型驅動的掃地機器人多任務表現不佳，成功率僅 40%

相關推薦

打破專用模型桎梏！谷歌 DeepMind 發佈 GenCeption，一個 AI 搞定五大視覺任務

消息稱智元機器人據悉衝刺IPO，目標估值200億美元

美國大模型抄了DeepSeek作業：性能沒贏、價格更貴，卻精準卡住了美國企業的合規剛需

日本Sakana AI放出Fugu Cyber：一個多智能體系統，把GPT-5.5-Cyber和Claude都挑落馬下

Anthropic Fable 5 訓練成本三倍於開源模型，未來面臨挑戰

​最新研究：大模型驅動的掃地機器人多任務表現不佳，成功率僅 40%

相關推薦

​打破專用模型桎梏！谷歌 DeepMind 發佈 GenCeption，一個 AI 搞定五大視覺任務

消息稱智元機器人據悉衝刺IPO，目標估值200億美元

美國大模型抄了DeepSeek作業：性能沒贏、價格更貴，卻精準卡住了美國企業的合規剛需

日本Sakana AI放出Fugu Cyber：一個多智能體系統，把GPT-5.5-Cyber和Claude都挑落馬下

Anthropic Fable 5 訓練成本三倍於開源模型，未來面臨挑戰

最新研究：大模型驅動的掃地機器人多任務表現不佳，成功率僅 40%

打破專用模型桎梏！谷歌 DeepMind 發佈 GenCeption，一個 AI 搞定五大視覺任務