近日,知名開源瀏覽器自動化項目BrowserUse正式發佈了其首個自研大語言模型——BU-30B-A3B-Preview。該模型一經上線便引發廣泛關注,被譽爲“網頁代理(Web Agent)領域的全新標杆”,以極致的成本效益和實時速度,徹底顛覆了AI瀏覽器操作的門檻。

模型架構:MoE設計,實現“大腦強大、身材輕盈”

BU-30B-A3B-Preview採用混合專家(MoE)架構,總參數規模達30B(300億),但實際推理時僅激活3B(30億)參數。這使得模型在保持頂級智能水平的同時,資源消耗大幅降低,僅需單張消費級GPU即可流暢運行。

該模型基於阿里雲通義千問Qwen3-VL-30B-A3B-Instruct進行深度微調,專爲瀏覽器自動化場景優化,支持多模態輸入(視覺+文本),上下文長度高達32K tokens,能夠輕鬆處理複雜長網頁內容。

image.png

核心能力:卓越的DOM理解與視覺推理

BU-30B-A3B-Preview在瀏覽器操作任務中表現出色,具備全面的網頁交互功能,包括精準元素定位、點擊、滾動、表單填寫等。其突出的DOM(文檔對象模型)理解能力和視覺推理能力,讓AI代理能像人類一樣“看懂”頁面佈局和截圖,實現高度可靠的自動化執行。

官方強調,該模型特別適合構建Web Agent應用場景,如自動化測試、數據採集、RPA流程等,已在內部基準測試中達到業內領先水平。

性能亮點:速度與成本雙重碾壓

官方發佈的對比數據顯示,BU-30B-A3B-Preview在任務完成速度和經濟性上遠超主流商用模型:

- 平均每步操作僅需1.2秒,整體任務完成時間大幅領先。

- 成本效益驚人:每1美元計算資源可可靠完成約200個瀏覽器任務,是部分競品模型的數十倍。

由於模型體積相對較小(單GPU部署友好),開發者可輕鬆本地下載測試,無需高額雲端費用。

開源意義:加速Web Agent生態發展

BU-30B-A3B-Preview已完全開源,模型權重上傳至Hugging Face平臺,任何開發者均可免費獲取並集成到BrowserUse開源庫中。這標誌着瀏覽器自動化領域進入“高效開源時代”,有望推動更多創新應用落地。

AIbase點評 BU-30B-A3B-Preview的出現,完美解決了傳統大模型在瀏覽器任務中“貴而慢”的痛點。對於需要大規模網頁自動化的企業和開發者而言,這無疑是一款性價比極高的選擇。未來,隨着社區進一步優化,該模型有望成爲Web Agent領域的標準配置。感興趣的讀者可立即前往Hugging Face下載體驗。

地址:https://huggingface.co/browser-use/bu-30b-a3b-preview