隨着大型語言模型(LLM)的迅猛發展,單一智能體在應對複雜現實任務時顯露出諸多侷限。爲了解決這個問題,香港大學與 camel-ai 等多家機構聯合推出了一種名爲 Workforce 的全新多智能體框架,並配套了一種名爲 OWL(Optimized Workforce Learning)的訓練方法。最近,這一創新成果在權威基準測試 GAIA 上獲得了69.70% 的準確率,不僅刷新了開源系統的記錄,還超越了 OpenAI Deep Research 等多家商業系統。

這一研究成果的所有代碼已在 GitHub 上開源,當前已獲得超過17,000個 Star 的點贊,標誌着社區對這一創新的認可。

image.png

那麼,Workforce 框架是如何突破多智能體系統的侷限性的呢?其核心在於創新的 “解耦設計”。框架將整個系統拆分爲三個關鍵組成部分:領域無關的規劃器(Planner Agent)、智能協調器(Coordinator Agent)和專業工作節點(Worker Nodes)。這種設計不僅提升了系統的靈活性,還顯著降低了跨領域遷移的複雜性。尤其是在需要適應新領域時,用戶只需替換或添加工作節點,而不必對核心系統進行全面修改。

image.png

OWL 訓練方法則是這一框架的另一大亮點。該方法採用了兩階段的訓練策略,第一階段是監督微調,通過專家演示數據對規劃器進行初步訓練;第二階段則是強化學習優化,通過直接偏好優化(DPO)算法進一步提升決策能力。這一系列優化確保了規劃器能夠處理現實世界中的多樣化任務。

在 GAIA 基準測試中,Workforce 框架展示了其顯著的優勢,尤其是在多智能體推理方面,達到了69.70% 的準確率,遠超以往的開源系統。同時,OWL 訓練方法也在測試中取得了顯著成果,提升了 Qwen2.5-32B-Instruct 模型的性能。這一突破使得多智能體系統在處理複雜任務時,不再受限於以往的設計思路,展現出強大的自我糾錯和進化能力。

Workforce 框架的推出不僅提升了多智能體系統的整體性能,也爲智能助手的未來發展指明瞭方向。