蘋果和哥倫比亞大學的研究人員合作開發了Ferret多模態語言模型,旨在實現高級圖像理解和描述。該模型擁有強大的全局理解能力,可以同時處理自由文本和引用區域,性能優於傳統模型。研究人員創建了GRIT數據集,用於指導模型訓練,並評估Ferret在多項任務中的性能,表現出引用和定位能力,有望在人機交互、智能搜索等領域取得重大突破。