百川智能與天津大學合作推出了"Sibyl System"智能體框架,並在GAIA Leader Board上取得了第一名的成績。GAIA是Meta、Huggingface和AutoGPT於2023年11月提出的全新評測方案,主要評測Agent在複雜任務執行方面的能力和方案。這個評測方案揭示了現有模型的能力缺陷,併爲模型和Agent的研發提供了改進方向。

GAIA的測試題目更接近真實世界,要求AI具備推理、多模態理解(文本、圖片、音/視頻)、網頁瀏覽和使用工具等能力。這些題目對人類來說不難理解,但對模型來說極具挑戰性。例如,GPT-4在測試中的成功率僅爲15%,而人類實驗者可以達到92%。完成這些題目通常需要較長的邏輯鏈路和時間,涉及多個步驟和工具。

微信截圖_20240724082043.png

"Sibyl System"框架的設計特點包括:

  • 類人的瀏覽器界面替代檢索增強生成。

  • 問答替代對話,使用無狀態的問答函數,簡化系統架構。

  • 僅使用網頁瀏覽器和Python環境這兩個通用工具,減少對專用工具的依賴。

  • 從System1到System2,引入“陪審團”機制,通過多代理辯論進行自我批評和修正,利用全局工作區中的信息提高響應的準確性。

Sibyl System是一個結構簡單但功能強大的基於大型語言模型的Agent框架,能夠通過使用少量工具解決複雜的推理問題。它通過引入Global Workspace和Multi-Agent機制,以及基於瀏覽器的通用信息獲取渠道,降低了系統複雜度,同時擴展瞭解決問題的複雜度,實現了模型從“快思考”到“慢思考”的轉變。Sibyl System還具有很好的可擴展性和易於調試的特點,可以輕鬆替換其他模型的Agent模塊,提升模型的能力。

技術報告:https://arxiv.org/pdf/2407.10718