蘋果公司近期在其機器學習研究中心發佈了一篇論文,介紹了一款名爲 SceneScout 的人工智能代理。該技術旨在通過分析街景圖像,爲視障人士提供詳細的環境描述,從而幫助他們在前往新的地點之前提前瞭解周圍的地形。
目前,許多視障人士在獨立出行時常常感到猶豫,因爲他們不清楚陌生環境中的具體情況。儘管已有一些工具如微軟的 Soundscape 應用,能夠提供現場環境的描述,但這些工具主要是在用戶現場使用時進行的,而非提前準備。因此,視障人士在出行前所獲得的地標和導航信息,往往無法滿足他們對環境背景的需求。SceneScout 的誕生正是爲了填補這一空白。
SceneScout 是一款由多模態大型語言模型驅動的 AI 代理,具有兩種主要功能模式。其中,“路線預覽” 模式能夠提供關於沿途可見元素的詳細描述,比如提醒用戶在轉彎處注意路旁的樹木等觸覺元素。而 “虛擬探索” 模式則允許用戶在街景圖像中自由移動,獲取更直觀的環境信息。
在用戶研究中,參與者表示 SceneScout 極大提升了他們對環境的認知,因爲這款 AI 能夠獲取他們無法通過現有工具獲取的信息。該研究表明,SceneScout 的描述準確率高達72%,對於穩定的視覺元素,準確率更是高達95%。然而,參與者也提出了一些改進建議,比如提供個性化的描述,或者將描述的視角調整至更符合行人的位置。
此外,參與者希望 SceneScout 能夠實時提供街景描述,以便與他們的行走位置同步,甚至可以通過骨傳導耳機在用戶移動時提供視覺信息。利用設備中的陀螺儀和指南針,SceneScout 還可以指向環境中的細節,進一步提升使用體驗。
雖然這篇論文並不代表蘋果一定會推出相關產品或服務,但它爲我們提供了一個瞭解蘋果在這項技術應用方面的視角。未來,結合 AI 和實時數據,蘋果或許能夠爲視障人士創造出更多便利的工具。
劃重點:
🌍 SceneScout 是一款 AI 代理,旨在爲視障人士提供詳細的環境描述,幫助他們提前瞭解陌生地點的地形。
🔍 該技術具有 “路線預覽” 和 “虛擬探索” 兩種模式,可以根據街景圖像提供環境信息。
📈 用戶研究表明,SceneScout 在描述的準確性上表現良好,並提出了一些個性化和實時反饋的改進建議。