最近,一項新研究顯示,即便是先進的 AI 語言模型,比如 OpenAI 最新的 o1-preview,在複雜的規劃任務中也顯得力不從心。
這項研究是由復旦大學、卡內基梅隆大學、字節跳動和俄亥俄州立大學的科學家們共同進行的,測試了 AI 模型在兩個規劃基準上的表現:BlocksWorld 和 TravelPlanner。
在 BlocksWorld 這個經典的規劃任務中,大多數模型的準確率都低於50%,只有 o1-mini(略低於60%)和 o1-preview(接近100%)的表現相對較好。
然而,當研究者將目光轉向更復雜的 TravelPlanner 時,所有模型的表現都令人失望。GPT-4o 的最終成功率僅爲7.8%,而 o1-preview 則達到15.6%。其他一些模型如 GPT-4o-Mini、Llama3.1和 Qwen2的得分在0到2.2% 之間。雖然 o1-preview 相較於 GPT-4o 有了提升,但仍然遠不及人類的規劃能力。
研究者們指出了兩個主要問題。首先,模型在整合規則和條件方面表現不佳,導致它們的計劃經常違反預設的指導方針。其次,隨着規劃時間的增加,它們會逐漸失去對原始問題的關注。爲了衡量不同輸入成分對規劃過程的影響,研究團隊使用了一種 “排列特徵重要性” 方法。
此外,研究團隊還測試了兩種常見的策略來提升 AI 的規劃能力。第一種是使用情節記憶更新,從以往的規劃嘗試中獲取知識,這雖然改善了對約束的理解,但並未導致對單個規則的更詳細考慮。第二種是參數記憶更新,通過微調來增強任務對規劃的影響,但隨着計劃的延長,核心問題 —— 影響力減弱 —— 依然存在。這兩種方法雖然有所改進,但未能完全解決根本問題。
值得一提的是,研究相關的代碼和數據將很快在 GitHub 上公開。
代碼入口:https://github.com/hsaest/Agent-Planning-Analysis
劃重點:
🌍 研究顯示,OpenAI 的 o1-preview 等 AI 模型在複雜旅行規劃上表現不佳,GPT-4o 成功率僅7.8%。
📉 大多數模型在 BlocksWorld 中表現尚可,但在 TravelPlanner 上均難以達到理想效果。
🧠 研究發現,模型主要存在對規則的整合不足及隨時間推移而失去焦點的問題。