AI2發佈全開源網絡代理 MolmoWeb:僅憑“視覺”即可掌控網頁

艾倫人工智能研究所（AI2）近日發佈了突破性的全開源網絡代理 MolmoWeb。與傳統依賴網頁底層代碼（DOM）的代理不同，MolmoWeb 僅通過讀取屏幕截圖進行決策，標誌着“視覺驅動”網絡導航技術的重大飛躍。

MolmoWeb 的運作邏輯非常直觀:它捕獲當前瀏覽器窗口的截圖，通過視覺分析決定下一步操作（如點擊、滾動、翻頁），然後執行並重復。這種“所見即所得”的模式使其比傳統代理更具魯棒性，因爲網頁的視覺佈局通常比底層代碼更穩定，且其決策過程對人類用戶而言完全透明、可解釋。

儘管 MolmoWeb 的參數規模僅爲4B 和8B，但在性能表現上卻展現出“以小博大”的實力:

榜單領跑: 在 WebVoyager 測試中，8B 版本的得分高達 78.2%，不僅在開源模型中名列前茅，更逼近了 OpenAI 的專有模型 o3（79.3%）。
潛力巨大: 研究發現，通過多次運行任務並篩選最優結果，其成功率可進一步躍升至 94.7%。
定位精準: 在 UI 元素定位基準測試中，它甚至超越了 Anthropic 的 Claude3.7。

AI2此次不僅開源了模型權重，還貢獻了名爲 MolmoWebMix 的龐大數據集。該數據集包含:

目前，MolmoWeb 已在 Hugging Face 和 GitHub 上通過 Apache2.0協議完全開放。儘管在處理複雜指令、登錄驗證及法律合規（如服務條款）方面仍面臨挑戰，但 AI2堅信，只有通過完全的透明和社區協作，才能真正對抗大型科技公司的數據壟斷。

環保組織起訴 xAI：馬斯克數據中心運行 46 臺燃氣輪機引發空氣質量擔憂