LangChain 研究揭示AI代理在工具使用上面臨瓶頸

隨着人工智能（AI）技術的不斷進步，企業開始探討是否應該依賴單一的 AI 代理，還是構建一個涵蓋更多職能的多代理網絡。近日，Orchestration 框架公司 LangChain 進行了相關實驗，旨在探討 AI 代理在面對過多指令和工具時的表現極限。

LangChain 在一篇博客中詳細介紹了其實驗過程，關注的核心問題是:“當一個 ReAct 代理被要求處理過多的指令和工具時，其性能會在何種情況下下降?” 爲了回答這一問題，研究團隊選擇了 ReAct 代理框架，因其被認爲是 “最基礎的代理架構之一”。

機器人人工智能2025

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

在實驗中，LangChain 的目標是評估一名內部郵件助手在兩項具體任務中的表現:答覆客戶問題和安排會議。研究人員使用了一系列預構建的 ReAct 代理，並通過 LangGraph 平臺對其進行測試。涉及的語言模型包括 Anthropic 的 Claude3.5Sonnet、Meta 的 Llama-3.3-70B 以及 OpenAI 的多個版本如 GPT-4o 等。

實驗的第一步是測試郵件助手的客戶支持能力，具體來看，代理如何接受客戶的郵件並給予回覆。接着，LangChain 還特別關注了代理在日曆安排上的表現，確保它能夠準確記住特定指令。

研究人員設定了每個任務30項的壓力測試，並將其分爲客戶支持和日曆安排兩個領域。結果顯示，當給代理過多的任務時，它們常常會感到不堪重負，甚至忘記調用必要的工具。例如，在處理多達七個領域的任務時，GPT-4o 的表現下降至2%。而 Llama-3.3-70B 則在任務測試中失誤頻頻，未能調用發送郵件的工具。

LangChain 發現，隨着提供上下文的增加，代理的指令執行能力顯著下降。儘管 Claude-3.5-sonnet 和其他幾種模型在多領域任務中表現相對較好，但在任務複雜性增加時，它們的性能也會逐步下降。公司表示，未來將進一步探討如何評估多代理架構，以改善代理的性能。

人工智能音樂登頂全球榜單，衝擊傳統音樂界

本週三首AI創作歌曲在音樂榜單表現亮眼。Breaking Rust的《Walk My Walk》和《Livin' on Borrowed Time》登上美國Spotify"病毒50"榜單前列，其作品還在全球榜單前五佔據席位。同時，荷蘭反移民歌曲《We Say No, No, No to an Asylum Center》登頂Spotify全球榜單。這些AI作品在Spotify和Billboard熱門榜單均取得佳績。

Anthropic 計劃投資 500 億美元建美國 AI 數據中心，助力企業和科學研究

人工智能公司Anthropic計劃投資500億美元在美國建設AI基礎設施，首期項目將在得克薩斯州和紐約州建設定製數據中心，以支持企業業務和長期研究。該項目與AI雲平臺Fluidstack合作開發，後者爲Meta等客戶提供GPU集羣服務。預計2026年首批數據中心投入運營，將創造800個永久崗位和2000多個建築崗位。

LangChain 研究揭示AI代理在工具使用上面臨瓶頸

相關推薦

英國有望在人工智能芯片市場佔據重要份額

人工智能音樂登頂全球榜單，衝擊傳統音樂界

飛利浦如何在 7 萬名員工中推廣 AI 素養

特斯拉與沃爾沃人工智能助手獲批，上海開啓智能服務新時代！

Anthropic 計劃投資 500 億美元建美國 AI 數據中心，助力企業和科學研究

LangChain 研究揭示AI代理在工具使用上面臨瓶頸

相關推薦

英國有望在人工智能芯片市場佔據重要份額

人工智能音樂登頂全球榜單，衝擊傳統音樂界

飛利浦如何在 7 萬名員工中推廣 AI 素養

特斯拉與沃爾沃人工智能助手獲批，上海開啓智能服務新時代！

​Anthropic 計劃投資 500 億美元建美國 AI 數據中心，助力企業和科學研究

Anthropic 計劃投資 500 億美元建美國 AI 數據中心，助力企業和科學研究