站長之家(ChinaZ.com)6月17日 消息:由香港中文大學和中國科學院等機構的研究團隊提出了一種名爲MiCo(Multimodal Context)的全模態預訓練範式,這一方法在多模態學習領域取得了顯著成果,刷新了37項最先進性能(SOTA)記錄。

核心特點:
全模態理解:MiCo旨在構建能夠理解任何模態並學習通用表示的全模態智能。
大規模預訓練:通過引入更多模態、數據量和模型參數,MiCo在預訓練過程中模擬了人腦的多模態認知過程。
神經網絡結構設計:MiCo將不同模態分爲“知識模態”和“接口模態”,並設計了相應的全模態學習架構,通過生成推理方法進行對齊。
多模態上下文與尺度定律:MiCo利用多模態上下文來強化模態間的相互增強,構建了跨模態的上下文關係。
實驗結果顯示:
在10種不同模態的單模態感知基準測試中,MiCo取得了7項SOTA成績。
在25種跨模態理解任務中,包括檢索、問答、描述等,MiCo獲得了20項SOTA成績。
在18種多模態大型語言模型基準測試中,MiCo共取得了10項SOTA成績。
MiCo的預訓練方法:
團隊採用了視頻與相配對的音頻、文字描述、深度和法線進行聯合預訓練,模擬人腦的視覺、聽覺和時空感知能力。
通過全模態編碼器(如ViT)提取多模態特徵,並使用文本編碼器提取文本特徵,構建了多模態上下文關係。
結論與未來工作:
MiCo項目是人工智能模擬人腦多模態認知的重要嘗試,團隊期待它能夠啓發未來的研究,開發更強大的全模態基礎模型。
未來的工作計劃包括結合更多模態,如光流、IMU數據和事件文件等,以繼續增強全模態聯合預訓練。
