手機、平板、電腦、電視,屏幕越來越多,操作越來越複雜,是不是讓你眼花繚亂?蘋果最近丟出一個王炸——Ferret-UI2,一個超強 UI 理解模型,號稱要統一江湖!

這可不是吹牛,Ferret-UI2的目標是成爲一個真正的六邊形戰士,能在各種平臺上理解用戶界面,不管是iPhone、Android、iPad、網頁還是AppleTV,它都能輕鬆拿下。

image.png

Ferret-UI2的一大亮點是它對多平臺的支持。與僅限於移動平臺的Ferret-UI不同,Ferret-UI2能夠理解來自平板電腦、網頁和智能電視等各種設備的UI屏幕。這種多平臺支持使其能夠適應當今多樣化的設備生態系統,爲用戶提供更廣泛的應用場景。

image.png

爲了提高UI感知能力,Ferret-UI2引入了動態高分辨率圖像編碼技術,並採用了一種名爲“自適應網格”的增強方法。通過這種方法,Ferret-UI2能夠在UI屏幕截圖的原始分辨率下保持感知能力,從而更準確地識別視覺元素和它們之間的關係。

image.png

此外,Ferret-UI2還利用高質量的訓練數據來學習基本和高級任務。 對於基本任務,Ferret-UI2將簡單的引用和定位數據轉換爲對話形式,使模型能夠對各種UI屏幕建立基本理解。 對於更側重於用戶體驗的高級任務,Ferret-UI2採用了**基於GPT-4o的“標記集視覺提示”**技術來生成訓練數據,並用單步用戶中心交互取代了之前方法中簡單的點擊指令。

爲了評估Ferret-UI2的性能,研究人員構建了涵蓋五個平臺的45個基準測試,包括每個平臺的6個基本任務和3個高級任務。 此外,他們還使用了GUIDE和GUI-World等公開基準測試。 結果表明,Ferret-UI2在所有測試的基準測試中都優於Ferret-UI,特別是在高級任務上取得了顯著的進步,證明了其在處理跨平臺UI理解任務方面的多功能性。

消融研究進一步表明,Ferret-UI2的架構改進和數據集改進都對性能提升做出了貢獻,其中新數據集對更具挑戰性的任務的影響更爲顯著。 此外,Ferret-UI2在跨平臺遷移學習方面也表現出色,特別是在iPhone、iPad和Android平臺之間表現出良好的泛化能力。

模型地址:https://huggingface.co/jadechoghari/Ferret-UI-Llama8b

論文地址:https://arxiv.org/pdf/2410.18967