MIT開發新算法DenseAV：通過觀看視頻學習語言含義

麻省理工學院（MIT）電氣工程與計算機科學專業的博士生 Mark Hamilton 是 MIT 計算機科學與人工智能實驗室(CSAIL)的成員，他希望利用機器理解動物的交流方式。爲了達到這一目的，他首先着手創建了一個能夠 “從零” 學習人類語言的系統。

產品入口:https://top.aibase.com/tool/denseav

這一算法名爲 DenseAV，它通過關聯音頻和視頻信號來學習語言的含義。Hamilton 和他的同事們訓練 DenseAV 進行音視頻匹配遊戲後，觀察了該模型在聽到聲音時關注的像素。例如，當有人說 “狗” 時，算法會立即在視頻流中尋找狗。這種像素的選擇能夠幫助人們發現算法認爲某個詞的含義。

有趣的是，當 DenseAV 聽到狗叫時，它也會尋找視頻流中的狗。這引起了研究人員的興趣，他們通過給 DenseAV “雙面大腦” 來探索算法是否知道 “狗” 這個詞和狗叫聲的區別。他們發現，DenseAV 的一側自然關注語言，如 “狗” 這樣的詞，另一側關注聲音，比如狗叫。這表明 DenseAV 不僅學會了詞語的含義和聲音的位置，還學會了區分這些跨模態連接的類型，而無需人工干預或任何文字輸入。

DenseAV核心功能特點:
1. DenseAV 是一種雙編碼器接地架構，通過觀看視頻學習高分辨率、語義意義和視聽對齊的特徵。
2. 它可以在沒有明確定位監督的情況下發現單詞的 “含義” 和聲音的 “位置”。
3. DenseAV 可以在沒有監督的情況下自動區分單詞含義和聲音位置的關聯。
4. 它利用音視頻對比學習將聲音與視覺世界聯繫起來，實現無監督學習。
5. 該模型使用基於本地音頻和視覺表示令牌之間內部積的對比相似性，顯著提高其定位信息的能力。
6. DenseAV 可以在不知道什麼是聲音、什麼是語言的情況下，自然地將其特徵組織爲聲音特徵和語言特徵。
7. 在使用不到一半參數的情況下，DenseAV 在跨模態檢索方面優於以前的最先進模型 ImageBind。

這一方法的一個應用領域是從每天發佈到互聯網的大量視頻中學習。研究人員表示，他們希望這種方法可以用於理解沒有書面交流形式的新語言，比如海豚或鯨魚的交流方式。最終，他們希望這種方法可以用於發現其他信號之間的模式關聯，比如地球發出的地震聲和地質情況。

團隊面臨的一項艱鉅挑戰是在沒有任何文本輸入的情況下學習語言。他們的目標是避免使用預先訓練的語言模型，從零重新發現語言的含義，這種方法受到了兒童通過觀察和傾聽環境來理解語言的啓發。

論文地址:https://arxiv.org/abs/2406.05629

MIT開發新算法DenseAV：通過觀看視頻學習語言含義

相關推薦

聯想開天發佈天禧AI Pro：專爲政企打造的"可信AI搭檔"

名創優品成立AI創新部：聚焦智能體研發與全球選址算法優化

ChatGPT 用戶突破 10 億，女性用戶佔比首次超過 50%

Cerebras 與 OpenAI 簽署 200 億美元芯片協議計劃 IPO

科大訊飛發佈AstronClaw升級版:推出9項新品及軟硬一體AI Agent架構

MIT開發新算法DenseAV：通過觀看視頻學習語言含義

相關推薦

聯想開天發佈天禧AI Pro：專爲政企打造的"可信AI搭檔"

名創優品成立AI創新部：聚焦智能體研發與全球選址算法優化

ChatGPT 用戶突破 10 億，女性用戶佔比首次超過 50%

​Cerebras 與 OpenAI 簽署 200 億美元芯片協議計劃 IPO

科大訊飛發佈AstronClaw升級版:推出9項新品及軟硬一體AI Agent架構

Cerebras 與 OpenAI 簽署 200 億美元芯片協議計劃 IPO