大模型智能體告別盲目堆疊！港中文團隊發佈SLIM框架，動態管理外部技能生命週期

大模型智能體（LLM Agent）正在加速從“會聊天”向“會做事”的連續決策階段演進，但如何高效管理智能體的外部能力正成爲全行業亟待攻克的新課題。近日，香港中文大學團隊在一篇名爲《Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning》的論文中，正式提出了一種名爲“SLIM”的動態技能生命週期管理框架。這一創新成果打破了以往行業盲目爲智能體“堆積技能”的怪圈，爲物理世界與虛擬世界的複雜任務落地提供了全新的解題思路。

在網頁搜索、自動辦公及具身機器人等複雜長時序場景中，智能體往往需要調用外部技能來處理易錯和長尾步驟。然而，傳統方法要麼傾向於不斷累積技能，導致檢索噪聲和上下文干擾劇增;要麼追求“零技能推理”，試圖將所有能力硬塞進模型參數，從而丟失了局部但關鍵的能力。針對這一痛點，SLIM框架將外部技能視作一個擁有生命週期的動態能力系統，讓模型在強化學習的訓練過程中，自主判斷外部技能的去留與擴充。

SLIM的基本運行機制是一個精妙的閉環循環。在訓練階段，系統會基於當前狀態精細化檢索通用或任務專屬技能，並利用GRPO算法更新智能體的決策策略。隨後，系統通過獨特的“留一法”（leave-one-skill-out）進行技能審計:通過臨時禁用某個技能來評估其邊際外部貢獻。若禁用後表現明顯下滑，則“保留”(Retain)該技能;若貢獻長期處於低位，說明模型已吸納該能力或其產生干擾，則讓其“退休”(Retire);而面對持續失敗的新場景，系統會通過“擴展”(Expand)機制從失敗案例中總結並補足新技能。

實驗結果表明，該框架在整體表現上平均超過了現有最佳對比方法7.1個百分點。在更偏動作執行、步驟複雜的ALFWorld家庭環境任務中，SLIM憑藉精簡且高效的外部技能管理，斬獲了87.5%的成功率，遠超強基線方法SkillRL的75.0%;而在更偏信息檢索與推理的SearchQA任務中，SLIM同樣表現出了強勁的競爭力，並驗證了模型能夠將部分搜索策略內化吸收的技術路徑。

業內分析人士指出，SLIM的核心價值在於將外部技能庫從固定的輔助工具，升維成了可與策略協同優化的訓練對象。它不僅在技術層面上明確了“哪些能力該寫入模型，哪些能力該留在外部”，更讓大模型智能體學會了在複雜多變的環境中何時尋求外部支持。這種動態化的能力管理範式，無疑爲下一階段具身智能與大模型Agent走向大規模產業化應用奠定了紮實的理論與工程基礎。

大模型智能體告別盲目堆疊！港中文團隊發佈SLIM框架，動態管理外部技能生命週期

相關推薦

打破專用模型桎梏！谷歌 DeepMind 發佈 GenCeption，一個 AI 搞定五大視覺任務

消息稱智元機器人據悉衝刺IPO，目標估值200億美元

美國大模型抄了DeepSeek作業：性能沒贏、價格更貴，卻精準卡住了美國企業的合規剛需

日本Sakana AI放出Fugu Cyber：一個多智能體系統，把GPT-5.5-Cyber和Claude都挑落馬下

Anthropic Fable 5 訓練成本三倍於開源模型，未來面臨挑戰

大模型智能體告別盲目堆疊！港中文團隊發佈SLIM框架，動態管理外部技能生命週期

相關推薦

​打破專用模型桎梏！谷歌 DeepMind 發佈 GenCeption，一個 AI 搞定五大視覺任務

消息稱智元機器人據悉衝刺IPO，目標估值200億美元

美國大模型抄了DeepSeek作業：性能沒贏、價格更貴，卻精準卡住了美國企業的合規剛需

日本Sakana AI放出Fugu Cyber：一個多智能體系統，把GPT-5.5-Cyber和Claude都挑落馬下

Anthropic Fable 5 訓練成本三倍於開源模型，未來面臨挑戰

打破專用模型桎梏！谷歌 DeepMind 發佈 GenCeption，一個 AI 搞定五大視覺任務