微軟最近發佈了 Fara-7B,這是一款擁有70億參數的新型計算機使用智能助手(Computer Use Agent, CUA),旨在直接在用戶的設備上執行復雜任務。Fara-7B 憑藉其小巧的體積,成功突破了企業在數據安全性方面的主要障礙,允許用戶自動化處理敏感工作流,比如管理內部賬戶或處理公司機密數據,而這些信息無需離開設備。
Fara-7B 的工作方式是通過視覺方式識別網頁,就像人類使用鼠標和鍵盤一樣。該模型通過截屏來感知網頁,並預測特定座標以執行點擊、輸入和滾動等操作。與其他依賴於 “可訪問性樹” 的系統不同,Fara-7B 完全依賴像素級的視覺數據,這使得它在面對複雜或混淆的網頁代碼時依然能夠進行有效互動。

在性能測試中,Fara-7B 在 WebVoyager 這一標準基準上實現了73.5% 的任務成功率,超越了資源佔用更大的系統,如 GPT-4o(65.1%)和本土的 UI-TARS-1.5-7B(66.4%)。此外,Fara-7B 的效率也很突出,平均僅需約16個步驟就能完成任務,而 UI-TARS-1.5-7B 大約需要41個步驟。
儘管 Fara-7B 的推出令人期待,但它也面臨與其他 AI 模型相同的風險,比如可能出現的誤判和在複雜指令下的執行錯誤。爲了解決這些問題,Fara-7B 經過訓練,可以識別 “關鍵點”,即在需要用戶個人數據或同意的情況下,主動暫停並請求用戶批准,以避免不可逆的操作。微軟研究團隊設計了一種名爲 Magentic-UI 的用戶界面,旨在平衡這些關鍵點和用戶體驗,以減少用戶疲勞。

Fara-7B 的開發也展示了知識蒸餾的趨勢,將複雜系統的能力壓縮成更高效的小模型。未來的版本將致力於使模型更加智能,而非單純增大體積,並探討在實時沙盒環境中通過強化學習來進行學習。
微軟已在 Hugging Face 和 Microsoft Foundry 上提供了 Fara-7B 的 MIT 許可版本,供用戶進行實驗和原型開發,但目前並不適合直接用於關鍵任務的部署。
劃重點:
🌟 Fara-7B 是一款本地運行的計算機智能助手,專注於數據安全和隱私保護。
⚙️ 該模型通過視覺方式處理網頁,與用戶的交互更爲直觀,效率遠超其他大型模型。
🛡️ Fara-7B 具備 “關鍵點” 識別功能,確保用戶在關鍵操作前能進行確認,提升安全性。
