隨着人工智能技術的不斷進步,用戶界面(UI)的理解成爲了創建直觀且有用的AI應用程序的關鍵挑戰。最近,蘋果公司的研究人員在一篇新論文中介紹了UI-JEPA,這是一種旨在實現輕量級設備端UI理解的架構,它不僅保持了高性能,還顯著降低了UI理解的計算要求。
UI理解的挑戰在於需要處理跨模式特徵,包括圖像和自然語言,以捕捉UI序列中的時間關係。儘管多模態大型語言模型(MLLM)如Anthropic Claude3.5Sonnet和OpenAI GPT-4Turbo在個性化規劃方面取得了進展,但這些模型需要大量的計算資源、巨大的模型大小,並會帶來高延遲,不適合需要低延遲和增強隱私的輕量級設備解決方案。

UI-JEPA 架構 圖片來源:arXiv
UI-JEPA的靈感來源於Meta AI首席科學家Yann LeCun於2022年推出的聯合嵌入預測架構(JEPA),這是一種自監督學習方法。JEPA通過預測圖像或視頻中被遮蓋的區域來學習語義表示,顯著降低了問題的維度,使較小的模型能夠學習豐富的表示。
UI-JEPA架構由視頻轉換器編碼器和僅解碼器語言模型兩個主要組件組成。視頻轉換器編碼器是一種基於JEPA的模型,可將UI交互的視頻處理爲抽象的特徵表示。LM採用視頻嵌入並生成用戶意圖的文本描述。研究人員使用了Microsoft Phi-3,這是一款輕量級的LM,具有大約30億個參數,非常適合在設備上進行實驗和部署。

UI-JEPA 的 IIT 和 IIW 數據集示例 圖片來源:arXiv
爲了進一步推進UI理解的研究,研究人員引入了兩個新的多模態數據集和基準:“野外意圖”(IIW)和“馴服意圖”(IIT)。IIW可捕獲具有模糊用戶意圖的開放式UI操作序列,而IIT專注於意圖更明確的常見任務。
在新基準上評估UI-JEPA的性能顯示,它在少樣本設置中的表現優於其他視頻編碼器模型,並實現了與更大的封閉模型相當的性能。研究人員發現,使用光學字符識別(OCR)合併從UI中提取的文本可進一步增強UI-JEPA的性能。
UI-JEPA模型的潛在用途包括爲AI代理創建自動反饋循環,使它們能夠在沒有人工干預的情況下從交互中不斷學習,以及將UI-JEPA集成到旨在跟蹤不同應用程序和模式中用戶意圖的代理框架中。
蘋果公司的UI-JEPA模型似乎非常適合Apple Intelligence,這是一套輕量級的生成式AI工具,旨在讓Apple設備更智能、更高效。鑑於蘋果對隱私的關注,UI-JEPA模型的低成本和額外效率可以使其AI助手比其他依賴雲模型的助手更具優勢。
