隨着人工智能(AI)技術的不斷進步,企業開始探討是否應該依賴單一的 AI 代理,還是構建一個涵蓋更多職能的多代理網絡。近日,Orchestration 框架公司 LangChain 進行了相關實驗,旨在探討 AI 代理在面對過多指令和工具時的表現極限。
LangChain 在一篇博客中詳細介紹了其實驗過程,關注的核心問題是:“當一個 ReAct 代理被要求處理過多的指令和工具時,其性能會在何種情況下下降?” 爲了回答這一問題,研究團隊選擇了 ReAct 代理框架,因其被認爲是 “最基礎的代理架構之一”。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
在實驗中,LangChain 的目標是評估一名內部郵件助手在兩項具體任務中的表現:答覆客戶問題和安排會議。研究人員使用了一系列預構建的 ReAct 代理,並通過 LangGraph 平臺對其進行測試。涉及的語言模型包括 Anthropic 的 Claude3.5Sonnet、Meta 的 Llama-3.3-70B 以及 OpenAI 的多個版本如 GPT-4o 等。
實驗的第一步是測試郵件助手的客戶支持能力,具體來看,代理如何接受客戶的郵件並給予回覆。接着,LangChain 還特別關注了代理在日曆安排上的表現,確保它能夠準確記住特定指令。
研究人員設定了每個任務30項的壓力測試,並將其分爲客戶支持和日曆安排兩個領域。結果顯示,當給代理過多的任務時,它們常常會感到不堪重負,甚至忘記調用必要的工具。例如,在處理多達七個領域的任務時,GPT-4o 的表現下降至2%。而 Llama-3.3-70B 則在任務測試中失誤頻頻,未能調用發送郵件的工具。
LangChain 發現,隨着提供上下文的增加,代理的指令執行能力顯著下降。儘管 Claude-3.5-sonnet 和其他幾種模型在多領域任務中表現相對較好,但在任務複雜性增加時,它們的性能也會逐步下降。公司表示,未來將進一步探討如何評估多代理架構,以改善代理的性能。
