麻省理工學院(MIT)電氣工程與計算機科學專業的博士生 Mark Hamilton 是 MIT 計算機科學與人工智能實驗室(CSAIL)的成員,他希望利用機器理解動物的交流方式。爲了達到這一目的,他首先着手創建了一個能夠 “從零” 學習人類語言的系統。

產品入口:https://top.aibase.com/tool/denseav
這一算法名爲 DenseAV,它通過關聯音頻和視頻信號來學習語言的含義。Hamilton 和他的同事們訓練 DenseAV 進行音視頻匹配遊戲後,觀察了該模型在聽到聲音時關注的像素。例如,當有人說 “狗” 時,算法會立即在視頻流中尋找狗。這種像素的選擇能夠幫助人們發現算法認爲某個詞的含義。

有趣的是,當 DenseAV 聽到狗叫時,它也會尋找視頻流中的狗。這引起了研究人員的興趣,他們通過給 DenseAV “雙面大腦” 來探索算法是否知道 “狗” 這個詞和狗叫聲的區別。他們發現,DenseAV 的一側自然關注語言,如 “狗” 這樣的詞,另一側關注聲音,比如狗叫。這表明 DenseAV 不僅學會了詞語的含義和聲音的位置,還學會了區分這些跨模態連接的類型,而無需人工干預或任何文字輸入。
DenseAV核心功能特點:
1. DenseAV 是一種雙編碼器接地架構,通過觀看視頻學習高分辨率、語義意義和視聽對齊的特徵。
2. 它可以在沒有明確定位監督的情況下發現單詞的 “含義” 和聲音的 “位置”。
3. DenseAV 可以在沒有監督的情況下自動區分單詞含義和聲音位置的關聯。
4. 它利用音視頻對比學習將聲音與視覺世界聯繫起來,實現無監督學習。
5. 該模型使用基於本地音頻和視覺表示令牌之間內部積的對比相似性,顯著提高其定位信息的能力。
6. DenseAV 可以在不知道什麼是聲音、什麼是語言的情況下,自然地將其特徵組織爲聲音特徵和語言特徵。
7. 在使用不到一半參數的情況下,DenseAV 在跨模態檢索方面優於以前的最先進模型 ImageBind。
這一方法的一個應用領域是從每天發佈到互聯網的大量視頻中學習。研究人員表示,他們希望這種方法可以用於理解沒有書面交流形式的新語言,比如海豚或鯨魚的交流方式。最終,他們希望這種方法可以用於發現其他信號之間的模式關聯,比如地球發出的地震聲和地質情況。
團隊面臨的一項艱鉅挑戰是在沒有任何文本輸入的情況下學習語言。他們的目標是避免使用預先訓練的語言模型,從零重新發現語言的含義,這種方法受到了兒童通過觀察和傾聽環境來理解語言的啓發。
論文地址:https://arxiv.org/abs/2406.05629
