大模型智能體(LLM Agent)正在加速從“會聊天”向“會做事”的連續決策階段演進,但如何高效管理智能體的外部能力正成爲全行業亟待攻克的新課題。近日,

在網頁搜索、自動辦公及具身機器人等複雜長時序場景中,智能體往往需要調用外部技能來處理易錯和長尾步驟。然而,傳統方法要麼傾向於不斷累積技能,導致檢索噪聲和上下文干擾劇增;要麼追求“零技能推理”,試圖將所有能力硬塞進模型參數,從而丟失了局部但關鍵的能力。針對這一痛點,SLIM框架將外部技能視作一個擁有生命週期的動態能力系統,讓模型在強化學習的訓練過程中,自主判斷外部技能的去留與擴充。
SLIM的基本運行機制是一個精妙的閉環循環。在訓練階段,系統會基於當前狀態精細化檢索通用或任務專屬技能,並利用GRPO算法更新智能體的決策策略。隨後,系統通過獨特的“留一法”(leave-one-skill-out)進行技能審計:通過臨時禁用某個技能來評估其邊際外部貢獻。若禁用後表現明顯下滑,則“保留”(Retain)該技能;若貢獻長期處於低位,說明模型已吸納該能力或其產生干擾,則讓其“退休”(Retire);而面對持續失敗的新場景,系統會通過“擴展”(Expand)機制從失敗案例中總結並補足新技能。

實驗結果表明,該框架在整體表現上平均超過了現有最佳對比方法7.1個百分點。在更偏動作執行、步驟複雜的ALFWorld家庭環境任務中,SLIM憑藉精簡且高效的外部技能管理,斬獲了87.5%的成功率,遠超強基線方法SkillRL的75.0%;而在更偏信息檢索與推理的SearchQA任務中,SLIM同樣表現出了強勁的競爭力,並驗證了模型能夠將部分搜索策略內化吸收的技術路徑。
業內分析人士指出,SLIM的核心價值在於將外部技能庫從固定的輔助工具,升維成了可與策略協同優化的訓練對象。它不僅在技術層面上明確了“哪些能力該寫入模型,哪些能力該留在外部”,更讓大模型智能體學會了在複雜多變的環境中何時尋求外部支持。這種動態化的能力管理範式,無疑爲下一階段具身智能與大模型Agent走向大規模產業化應用奠定了紮實的理論與工程基礎。
