隨着互聯網的迅猛發展,信息的爆炸式增長讓人類在信息檢索上面臨諸多挑戰。爲了應對這些挑戰,阿里巴巴的通義實驗室推出了一款創新的開源 AI 智能體框架 ——WebSailor。該框架以其卓越的性能,尤其在複雜任務處理上,已在 GitHub 上獲得了超過5000顆星的評價,成爲每日增長率最高的項目之一。
WebSailor 的卓越性能
WebSailor 的開發團隊通過多項基準測試驗證了其出色的性能。在 BrowseComp-en/zh 測試中,WebSailor 的表現超越了所有現有開源智能體,甚至與一些閉源模型相媲美。此外,在 SimpleQA 基準測試中,WebSailor 同樣展示了其在簡單任務處理上的優越性。
複雜任務生成與強化學習的結合
WebSailor 的核心技術主要集中在複雜任務生成和強化學習兩個模塊上。這兩個模塊相輔相成,使得 WebSailor 在處理複雜信息檢索任務時展現出更高的效率。
複雜任務生成 :爲了模擬真實世界的信息環境,研究團隊構建了複雜的知識圖譜。這些圖譜通過隨機遊走的方式生成,體現了高度的非線性和複雜性。每個節點代表一個實體,邊則顯示實體之間的關係,形成多樣化的組合,提供了生成高不確定性任務的基礎。
強化學習模塊 :強化學習的目標是通過與環境的交互優化模型的行爲策略。WebSailor 採用了兩階段的訓練方法,首先通過拒絕採樣的微調階段(RFT)來冷啓動模型,然後進入強化學習階段。在此過程中,研究團隊還引入了動態採樣策略優化訓練過程,提出了 DUPO 算法,使模型在更少樣本下實現更高的性能。
提升任務複雜性的創新手段
爲了進一步增加任務的複雜性,研究團隊在生成問答對時引入了信息模糊化技術。這種技術將精確的信息替換爲模糊的描述,使得問題更具挑戰性,要求模型進行更復雜的推理和信息合成。這一創新手段不僅提高了任務的難度,也提升了模型的智能水平。
隨着 WebSailor 的發佈,阿里巴巴在人工智能領域的創新又向前邁進了一步。開源的特性不僅有助於技術的普及和發展,也爲開發者提供了更多的探索空間和實踐機會。未來,WebSailor 有望在信息檢索、智能問答等多個領域展現出更大的潛力。
開源地址:https://github.com/Alibaba-NLP/WebAgent