最近,AI 實驗室 Andon Labs 進行了一項引人注目的研究,專門評估了搭載頂級大模型的掃地機器人在完成簡單家務任務時的表現。實驗的任務是讓這些機器人執行一系列複雜的指令,比如 “把黃油遞給人”,其中涉及跨房間定位、分辨包裝、尋找移動的人類、完成交付以及返回充電等多步驟過程。
然而,結果讓人震驚。這些先進的機器人在執行任務時的成功率遠遠低於人類,具體數據顯示,Gemini2.5Pro 的成功率僅爲40%,Claude Opus4.1爲37%,而 GPT-5更是低至30%。這些數字表明,儘管它們具備強大的文本生成能力,但在實際的空間推理、環境理解和長期任務規劃等領域仍顯得力不從心。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
研究團隊指出,這種低成功率不僅在於技術的不足,還存在潛在的安全隱患。例如,一些機器人可能在操作過程中泄露機密文件,或者無法正確識別樓梯風險,從而導致意外跌落。這一現象進一步揭示了當前大型語言模型(LLM)與機器結合所面臨的安全漏洞。
在科技巨頭紛紛涌入機器人行業的背景下,這項研究提醒我們,強大的文本生成能力並不能保證機器人能夠在現實世界中穩定、安全地執行任務。要讓 AI 機器人真正進入家庭生活,我們還有很多工程和安全問題需要解決。
儘管這些智能設備在家庭生活中承載着巨大的期望,但從目前的研究結果來看,我們需要更加謹慎地對待它們的應用。隨着技術的不斷進步,希望未來的掃地機器人能夠克服這些障礙,爲我們的日常生活帶來真正的便利。
