大模型AI掃地機器人 “翻車”：成功率僅 40%！家庭應用仍有待提高

最近，AI 實驗室 Andon Labs 進行了一項引人注目的研究，專門評估了搭載頂級大模型的掃地機器人在完成簡單家務任務時的表現。實驗的任務是讓這些機器人執行一系列複雜的指令，比如 “把黃油遞給人”，其中涉及跨房間定位、分辨包裝、尋找移動的人類、完成交付以及返回充電等多步驟過程。

然而，結果讓人震驚。這些先進的機器人在執行任務時的成功率遠遠低於人類，具體數據顯示，Gemini2.5Pro 的成功率僅爲40%，Claude Opus4.1爲37%，而 GPT-5更是低至30%。這些數字表明，儘管它們具備強大的文本生成能力，但在實際的空間推理、環境理解和長期任務規劃等領域仍顯得力不從心。

掃地機器人產品圖

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

研究團隊指出，這種低成功率不僅在於技術的不足，還存在潛在的安全隱患。例如，一些機器人可能在操作過程中泄露機密文件，或者無法正確識別樓梯風險，從而導致意外跌落。這一現象進一步揭示了當前大型語言模型（LLM）與機器結合所面臨的安全漏洞。

在科技巨頭紛紛涌入機器人行業的背景下，這項研究提醒我們，強大的文本生成能力並不能保證機器人能夠在現實世界中穩定、安全地執行任務。要讓 AI 機器人真正進入家庭生活，我們還有很多工程和安全問題需要解決。

儘管這些智能設備在家庭生活中承載着巨大的期望，但從目前的研究結果來看，我們需要更加謹慎地對待它們的應用。隨着技術的不斷進步，希望未來的掃地機器人能夠克服這些障礙，爲我們的日常生活帶來真正的便利。

摩根大通潑冷水：AI投資熱潮降溫，市場不再"沾AI就買"

摩根大通策略師戴維·萊博維茨指出，投資者對AI的態度正從盲目追捧轉向理性甄別。隨着AI成跨資產交易主題，華爾街必須學會分辨風險與回報。市場正細緻區分產業鏈各環節，判斷供給過剩與需求強勁的領域，告別單純狂熱。

大模型AI掃地機器人 “翻車”：成功率僅 40%！家庭應用仍有待提高

相關推薦

AI日報：GPT5.6系列模型發佈 Codex消失;騰訊擬接盤Manus成最大股東；MiniMax創始人宣佈零薪酬直至實現AGI

Meta 發佈新旗艦模型 Muse Spark 1.1，升級多代理自動化功能

三星殺回PC芯片戰場：自研AI專用芯片GAIA已送測聯想惠普， 2027 年量產

吸金 20 億美元！MiniMax完成 160 億港元新一輪融資，獲超 7 倍超額認購

摩根大通潑冷水：AI投資熱潮降溫，市場不再"沾AI就買"

大模型AI掃地機器人 “翻車”：成功率僅 40%！家庭應用仍有待提高

相關推薦

AI日報：GPT5.6系列模型發佈 Codex消失;騰訊擬接盤Manus成最大股東；MiniMax創始人宣佈零薪酬直至實現AGI

​Meta 發佈新旗艦模型 Muse Spark 1.1，升級多代理自動化功能

三星殺回PC芯片戰場：自研AI專用芯片GAIA已送測聯想惠普， 2027 年量產

吸金 20 億美元！MiniMax完成 160 億港元新一輪融資，獲超 7 倍超額認購

​摩根大通潑冷水：AI投資熱潮降溫，市場不再"沾AI就買"

Meta 發佈新旗艦模型 Muse Spark 1.1，升級多代理自動化功能

摩根大通潑冷水：AI投資熱潮降溫，市場不再"沾AI就買"