研究人員近日公佈了一項驚人的進展:一個新的 AI 大模型成功掌握了人類的空間思考能力。這一突破源於螞蟻技術研究院自然語言組與中科院自動化所和香港中文大學的合作,推出了名爲 ViLaSR-7B 的模型,專注於空間推理任務。

這個模型通過一種名爲 “邊看邊畫” 的訓練方法,能夠在理解圖像的同時進行空間推理,從而在迷宮導航、靜態圖像理解和視頻分析等多個任務上平均提高了18.4% 的準確率。更令人振奮的是,ViLaSR-7B 在著名的 VSI-Bench 測試中,達到了45.4% 的高分,成功超越了當前最先進的方法。

元宇宙 科幻 賽博朋克 繪畫 (1)大模型

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

ViLaSR-7B 的成功不僅是技術上的進步,更是向實現真正的視覺智能邁出了一大步。研究團隊爲模型設計了三階段訓練框架,以系統化地培養其空間推理能力。第一階段,模型通過冷啓動訓練建立基礎視覺能力;第二階段,通過反思拒絕採樣,模型學習到自我修正的能力;第三階段,採用強化學習,進一步優化其推理效果。

傳統的視覺語言模型主要通過 “視覺轉文本” 的方式處理圖像信息,但這一方法在許多場景中表現出侷限性,如在複雜的迷宮中容易失去方向。相比之下,ViLaSR-7B 的 “邊看邊畫” 方式,讓模型能夠更靈活地捕捉空間關係,通過交互式繪圖來輔助思考。這種創新性的思維模式模擬了人類在解決空間問題時的過程,提升了模型的理解深度和推理效果。

ViLaSR-7B 的推出不僅展示了人工智能在視覺推理領域的潛力,還爲未來的智能應用提供了新的方向。