隨着人工智能技術的發展,多智能體系統在各個領域的複雜任務處理能力越來越強。這些系統由多個專門的智能體組成,它們通過合作各自發揮特長,共同達成目標。這樣的協作在複雜推理、編程、藥物發現和安全保證等方面表現出色,因爲智能體之間的結構化互動不僅提高了解決問題的效率,還可以相互校正,從而改進各自的輸出。研究表明,這種協作方式在需要嚴格推理或事實驗證的任務中,往往優於單一智能體的表現。

QQ_1739439911579.png

然而,優化多智能體系統仍面臨重大挑戰。一個主要問題是如何爲每個智能體獲得合適的訓練信號。儘管可以獲得任務級別的獎勵反饋,但如何在各個智能體之間進行信用分配卻變得模糊。由於語言模型的推理過程複雜且無結構,如何將成功或失敗歸因於每個智能體的具體決策和推理步驟變得更加困難,這與強化學習中的多智能體信用分配問題類似。

爲了解決這一問題,斯坦福大學的研究人員推出了 SIRIUS 框架,這是一種自我改進的多智能體優化框架,利用推理驅動的學習。SIRIUS 通過保留成功的推理軌跡構建經驗庫,提供高質量的訓練集。同時,對於不成功的嘗試進行增強,豐富數據集。研究結果顯示,SIRIUS 在推理和生物醫學問答方面的表現提高了2.86% 到21.88%,並改善了競爭環境中的智能體談判能力。智能體通過學習成功的互動,迭代改進合作策略,從而實現了無需直接監督的自我優化。

SIRIUS 框架還包括一個迭代微調的過程,智能體在一個自然語言環境中互動,生成響應、評估響應、改進低質量輸出,並通過監督學習更新策略。通過持續的響應優化,SIRIUS 提升了語言基礎多智能體系統中的推理和決策能力,隨着時間的推移,實現了更加有效和連貫的互動。

在實驗中,SIRIUS 與多種基線模型進行了比較,包括單智能體、STaR、CoMM 和 TextGrad。結果顯示,SIRIUS 在問題解決、任務分解和智能體協作方面均表現優異。通過消融研究發現,專門的智能體角色、多智能體優化以及經驗增強是提升性能的關鍵因素。SIRIUS 在演員 - 評論家和競爭環境中也表現出色,在 PubMedQA 和資源交換遊戲等任務中均優於其他方法。

綜上所述,SIRIUS 是一個旨在通過學習成功互動和改進失敗案例來優化多智能體系統的框架。它構建了一個包含高質量推理步驟的經驗庫,作爲系統優化的訓練集,同時通過增強不成功的軌跡來豐富庫的內容。這一框架顯著提高了推理、生物醫學問答和智能體談判能力,推動了多智能體協作的持續自我改進。

論文:https://arxiv.org/pdf/2502.04780

劃重點:

🌟 SIRIUS 框架通過自我改進和學習成功經驗,優化多智能體系統的性能。  

📈 研究表明,SIRIUS 在推理和生物醫學問答等任務中,性能提升達2.86% 到21.88%。  

🤝 多智能體之間的互動和經驗庫的構建是 SIRIUS 優化過程的核心,助力智能體在複雜任務中更有效合作。