阿里通義實驗室(Tongyi Lab)近日重磅推出WebAgent系列的第四款開源工具——WebShaper,這一突破性框架以其創新的“形式化驅動”信息檢索範式引發行業熱議。據AIbase從社交媒體及相關渠道獲悉,WebShaper不僅在GAIA基準測試中取得60.19的高分,超越了Claude3.5Sonnet和GPT-4o,還通過全新的數據生成方法顯著提升了AI在複雜任務中的信息檢索與推理能力。

 從信息驅動到形式化驅動:範式革新的突破

傳統的信息檢索(IS)方法多以“信息驅動”爲核心,但常面臨信息結構與推理邏輯錯位、知識覆蓋有限的問題,導致AI在處理開放性複雜任務時表現不足。WebShaper引入了“形式化驅動”的全新範式,通過系統化的任務形式化方法,重新定義了數據生成與模型訓練流程。

image.png

這一框架的核心在於:通過邏輯清晰的結構化生成方式,確保訓練數據的知識結構與推理結構在語義上高度一致。AIbase瞭解到,WebShaper利用“代理式擴展器”(Agentic Expander)迭代生成並驗證問題,確保數據生成過程可控且條理清晰。這種方法不僅提升了數據的質量,還顯著增強了模型在複雜信息檢索任務中的表現能力。

 GAIA評測創佳績:60.19分領跑開源模型

WebShaper的性能表現令人矚目。在GAIA基準測試中,基於WebShaper數據集訓練的開源模型取得了60.19的高分,超越了業界領先的Claude3.5Sonnet和GPT-4o,樹立了新的開源模型標杆。GAIA作爲一項專注於評估AI通用能力的基準,涵蓋多模態處理、網頁瀏覽及複雜推理等任務,其高難度設計對AI的綜合能力提出了嚴苛要求。

此外,WebShaper在WebWalkerQA基準測試中也取得了52.50的優異成績,展現了其在網頁遍歷與信息檢索任務中的強大能力。AIbase認爲,這一成果不僅證明了WebShaper在技術上的領先性,也爲開源AI社區注入了新的活力。

image.png

 WebShaper數據集:邏輯驅動的訓練新範式

WebShaper的核心創新之一是其數據集生成框架。不同於傳統雜亂無章的數據收集方式,WebShaper通過形式化驅動的方法,系統化地生成信息檢索任務實例。AIbase獲悉,該框架能夠根據任務需求生成結構化的訓練數據,確保知識與推理邏輯的語義一致性,從而讓AI在處理開放性問題時表現更加精準和高效。

例如,WebShaper引入了SailorFog-QA數據集,這是一個高不確定性和高難度的問答基準,通過圖採樣和信息模糊化技術生成,專爲測試模型在複雜場景下的表現而設計。社交媒體反饋顯示,開發者對這一數據集的邏輯性和可控性給予高度評價,認爲其爲AI模型的訓練提供了更可靠的基礎。

 WebAgent生態的持續進化:開源與社區驅動

WebShaper是阿里通義實驗室WebAgent系列的最新成果,該系列還包括WebWalker、WebDancer和WebSailor。這些工具共同致力於打造自主化信息檢索與處理能力,覆蓋學術研究、市場分析到日常查詢等多種場景。AIbase注意到,WebAgent項目已在GitHub上獲得超過4000次星標,顯示出開源社區的廣泛關注與支持。[](https://www.kdjingpai.com/en/webagent/)

WebShaper的開源特性進一步推動了社區的創新。開發者可以自由訪問代碼與部分數據集,通過調整超參數或結合如DUPO算法的強化學習優化模型性能。此外,WebAgent還提供了WebWalkerQA、GAIA等任務的交互式演示,方便用戶直觀體驗模型的強大功能。AIbase預計,隨着社區的持續貢獻,WebShaper及其相關工具將在更多場景中展現潛力。

 未來展望:推動AI邁向通用智能

WebShaper的發佈標誌着信息檢索領域的一次重要進步,其形式化驅動的範式爲AI處理複雜任務提供了新的可能性。AIbase瞭解到,阿里通義實驗室計劃進一步擴展WebAgent系列的功能,例如優化多模態處理能力、支持更廣泛的語言和場景,甚至探索遠程訪問高性能模型的部署方式。

社交媒體上,開發者對WebShaper的評價普遍積極,認爲其“邏輯清晰、性能卓越”,尤其是在處理需要多步推理和跨模態理解的任務時表現突出。AIbase認爲,WebShaper不僅提升了開源模型的競爭力,也爲通用人工智能(AGI)的發展奠定了重要基礎。

結語  

阿里通義實驗室的WebShaper以其形式化驅動的創新範式和在GAIA基準中的卓越表現,重新定義了信息檢索任務的邊界。AIbase將持續跟蹤WebAgent系列的最新進展,爲您帶來更多前沿AI技術資訊。讓我們共同見證開源AI如何在邏輯驅動與社區協作的推動下,邁向通用智能的新時代!

項目地址:https://github.com/Alibaba-NLP/WebAgent