在多模態人工智能(AI)領域,蘋果公司的工程師們與法國索邦大學的研究團隊合作,展開了一項重要研究。近日,科技媒體 marktechpost 發佈了相關博文,探討了早期融合與後期融合模型在多模態 AI 中的應用與前景。研究表明,從頭訓練的早期融合模型在計算效率和可擴展性上更具優勢。

多模態 AI 的目標是同時處理圖像、文本等多種數據類型,然而,整合這些不同來源的數據一直是一個難題。目前的技術普遍採用後期融合(late-fusion)策略,即將預訓練的單模態模型(如視覺和語言模型)組合在一起。雖然這種方法操作簡單,但在實現真正的多模態理解時,往往受到單模態預訓練帶來的固有偏差限制,進而影響模型捕捉跨模態關係的能力。

元宇宙 科幻 賽博朋克 繪畫 (3)大模型

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

隨着系統規模的擴大,各個組件的參數、預訓練需求及擴展特性差異顯著,導致計算資源的分配變得複雜,尤其是在需要深度多模態推理的任務中,性能受到嚴重影響。在此背景下,蘋果與索邦大學的研究團隊挑戰了傳統的架構選擇,深入探討了原生多模態模型(NMMs)的擴展特性。

研究比較了早期融合(early-fusion)與後期融合模型。結果顯示,儘管兩者在從頭訓練時性能相當,早期融合模型在較低計算預算下表現更高效,並且更易於擴展。此外,團隊還探索了專家混合(MoE)稀疏架構,這一架構能夠動態分配參數,針對不同模態進行專項優化。與稠密模型相比,稀疏模型在小規模模型中表現出明顯的優勢。

研究表明,稀疏模型更傾向於擴展訓練數據(training tokens),而非活躍參數(active parameters),這與稠密模型的擴展方式形成了鮮明對比。通過系統實驗,研究團隊訓練了從0.3億到40億活躍參數的多模態模型,驗證了早期融合和稀疏架構在多模態處理中的潛力。這些發現不僅挑戰了傳統的設計理念,也爲未來高效多模態 AI 系統的開發提供了新思路。