阿里雲通義實驗室近日宣佈正式開源其自主搜索AI智能體項目 WebAgent,其中旗艦組件 WebShaperWebSailor 在網絡智能體領域引發廣泛關注。作爲一款突破性的AI工具,WebAgent以其端到端的自主信息檢索與多步推理能力,展現出接近甚至超越人類專家的網絡交互水平。

image.png

WebAgent:模擬人類搜索行爲的智能體

WebAgent是阿里巴巴通義實驗室開發的一款開源AI智能體,旨在模擬人類在網絡環境中的感知、決策和行動循環。其核心目標是通過自主搜索和多步推理,高效處理複雜、模糊的網絡任務。WebAgent包含多個關鍵組件,其中 WebSailorWebShaper 是技術創新的亮點。根據官方介紹,WebAgent能夠主動搜索學術數據庫、新聞網站和專業論壇,篩選關鍵信息並生成結構化報告,廣泛適用於學術研究、商業分析和日常查詢等場景。

權威評測集 BrowseComp 上,WebSailor-72B模型表現尤爲突出,超越了DeepSeek R1和Grok-3等閉源模型,僅次於OpenAI的DeepResearch,登頂開源網絡智能體榜單。WebAgent還在 GAIAWebWalkerQA 基準測試中分別取得60.19分和52.2分的優異成績,展現了其在複雜任務中的卓越性能。

WebShaper:形式化驅動的數據合成新範式

WebShaper 是WebAgent生態中的核心創新,提出了一種基於“形式化驅動”的數據合成方法,解決了AI在高不確定性任務中的推理難題。WebShaper通過集合論構建了信息搜索任務的數學化表示框架,利用“知識投影”概念,將複雜搜索過程抽象爲實體集合的操作。例如,查詢“出生於90年代的球員在2004-05賽季爲東德足球隊效力”時,WebShaper能系統化地生成訓練數據,確保AI在多步推理中保持準確性。

WebShaper數據集覆蓋體育、學術、政治、娛樂等多個領域,其中體育類問題佔21%,學術類佔17%,確保了知識的廣泛適應性。其逐層擴展策略避免了推理捷徑和信息冗餘,使AI必須通過完整推理路徑得出答案。在實驗中,WebShaper訓練的模型在相同數據量下,性能顯著優於WebWalkerQA和E2HQA等傳統數據集。

WebSailor:複雜任務中的“超級網絡偵探”

作爲WebAgent的“大腦”,WebSailor 是一個大規模語言模型,負責理解用戶意圖、制定瀏覽策略並決定操作步驟。其最新版本 WebSailor-72B 通過阿里雲FunctionAI實現一鍵部署,用戶僅需10分鐘即可完成配置,極大降低了使用門檻。WebSailor在高不確定性任務中表現出色,例如處理模糊查詢或需要跨平臺信息整合的複雜場景。

WebSailor的訓練採用了創新的 SailorFog-QA 數據集,通過子圖採樣和信息模糊化技術模擬真實網絡環境中的複雜知識圖譜。這種方法賦予了模型處理“超人類”任務的能力,例如在BrowseComp測試中,WebSailor-32B和72B版本不僅領先所有開源模型,還超越了部分閉源系統。

WebDancer與WebWalker:構建完整生態

WebAgent的成功離不開其兩大模塊:WebDancerWebWalker。WebDancer是一個端到端智能體訓練框架,通過四階段訓練(數據構建、軌跡採樣、監督微調、強化學習)提升AI的多步搜索能力。其最新版本 WebDancer-QwQ-32B 在GAIA Pass@3評測中取得64.1%的優異成績。WebWalker則是一個基準測試工具,用於評估語言模型在複雜網頁遍歷中的表現,爲開發者優化算法提供了標準化的評估體系。

WebAgent的混合推理模式通過“思維預算機制”動態分配計算資源,實現快速響應簡單查詢與深度推理複雜任務的平衡。在實際應用中,WebAgent能在10分鐘內完成特斯拉與小鵬汽車配置表的爬取與分析,或從PubMed等數據庫提取臨牀試驗數據並生成溯源報告,效率遠超人工。

開源意義:重塑信息處理與社區創新

WebAgent的開源不僅降低了企業和開發者的使用成本,還爲全球AI社區提供了工業級訓練框架和評估標準。其GitHub倉庫(https://github.com/Alibaba-NLP/WebAgent)已獲超4000次星標,位列GitHub trending第一,Huggingface月度第三。WebSailor的訓練策略——高難度任務合成、小規模冷啓動、高效強化學習優化——爲開源社區攻克複雜推理任務提供了寶貴思路。

從學術研究到商業決策,WebAgent的應用潛力巨大。例如,研究人員可利用其快速檢索ACL2025論文主題,商業用戶可分析2025年AI芯片市場趨勢,普通用戶則能獲取旅遊規劃或健康諮詢等個性化建議。WebAgent的開源標誌着AI智能體從技術演示邁向生產力場景,未來有望推動跨模態信息整合和開放領域推理的進一步突破。

GitHub:https://github.com/Alibaba-NLP/WebAgent

huggingface:https://huggingface.co/datasets/Alibaba-NLP/WebShaper

model scope:https://modelscope.cn/datasets/iic/WebShaper