蘋果公司近日發佈了新一代人工智能系統Ferret-UI2。這款跨平臺AI助手在UI元素識別方面取得重大突破,測試得分達89.73,大幅領先GPT-4V的77.73分,展現出卓越的性能表現。
這套系統最大的特點在於其智能理解用戶意圖的能力。不同於傳統基於座標點擊的操作方式,Ferret-UI2能夠根據用戶的自然語言指令,自動定位並執行相應操作。研究團隊通過藉助GPT-4V的視覺能力生成訓練數據,使系統能夠更好地理解界面元素之間的空間關係。
在技術架構上,Ferret-UI2採用了自適應設計,可在iPhone、iPad、安卓設備、網頁瀏覽器和Apple TV等多個平臺上準確識別UI元素。系統還配備了智能算法,能夠根據不同平臺自動調整圖像分辨率和處理需求,在保留信息完整性的同時確保本地運算效率。
實際測試數據顯示,該系統在各平臺上表現優異:iPhone端運行流暢,iPad端準確率達68%,安卓設備上的成功率更是達到71%。不過在跨設備場景下,比如在移動設備與電視或網頁界面之間切換時,仍存在一定挑戰,這主要源於不同平臺間界面佈局的差異。
值得注意的是,UI交互AI領域競爭日益激烈。Anthropic最近升級了Claude3.5Sonnet的UI交互能力,微軟則開源了OmniParser工具,致力於將屏幕內容轉化爲結構化數據。
蘋果同時推出的CAMPHOR框架,通過專業AI代理和主控推理代理的配合,進一步增強了系統處理複雜任務的能力。這意味着未來Siri等語音助手將能更智能地完成諸如餐廳預訂等複雜任務,無需用戶手動操作界面。
這項技術的突破不僅提升了跨設備操作的智能化水平,也爲下一代人機交互描繪了清晰的發展藍圖。隨着技術的持續演進,更智能、更自然的人機交互體驗已經觸手可及。