最近,多模態大型語言模型(MLLM)取得了顯著進展,特別是在視覺和文本模態的集成方面。但隨着人機交互的日益普及,語音模態的重要性也日益凸顯,尤其是在多模態對話系統中。語音不僅是信息傳輸的關鍵媒介,還能顯著提高交互的自然性和便利性。

image.png

然而,由於視覺和語音數據在本質上的差異,將它們整合到 MLLM 中並非易事。例如,視覺數據傳達空間信息,而語音數據則傳達時間序列中的動態變化。這些根本性的差異給兩種模態的同步優化帶來了挑戰,常常導致訓練過程中的衝突。此外,傳統的語音到語音系統依賴於獨立的自動語音識別(ASR)和文本到語音(TTS)模塊,這會增加延遲並降低連貫性,限制了其在實時應用中的實用性。

image.png

爲了解決這些挑戰,研究人員推出了 VITA-1.5,這是一款集成了視覺、語言和語音的多模態大型語言模型。VITA-1.5採用精心設計的三階段訓練方法,逐步引入視覺和語音數據,緩解模態衝突,同時保持強大的多模態性能。

第一階段,模型專注於視覺-語言訓練,通過訓練視覺適配器並使用描述性字幕和視覺問答數據微調模型,建立強大的視覺能力。

第二階段引入音頻輸入處理,通過使用語音轉錄配對數據訓練音頻編碼器,然後使用語音問答數據進行微調,使模型能夠有效地理解和響應音頻輸入。最後,在第三階段,訓練音頻解碼器以實現端到端語音輸出,無需外部 TTS 模塊,從而使 VITA-1.5能夠生成流暢的語音回覆,增強多模態對話系統的自然性和交互性。

VITA-1.5的整體架構包括視覺和音頻編碼器以及連接到大型語言模型的適配器。輸出端則具有一個端到端的語音生成模塊,而不是像最初的 VITA-1.0版本那樣使用外部 TTS 模型。視覺編碼器採用 InternViT-300M,輸入圖像大小爲448×448像素,每張圖像生成256個視覺令牌。

對於高分辨率圖像,VITA-1.5採用動態修補策略來捕獲局部細節。視頻則被視爲一種特殊的多圖像輸入類型,根據視頻長度對幀進行採樣。音頻編碼模塊由多個下采樣卷積層和24個 Transformer 塊組成,輸出幀率爲12.5Hz。音頻適配器由多個具有2倍下采樣的卷積層組成。TiCodec 被用作編解碼器模型,它將連續的語音信號編碼成離散的語音令牌,頻率爲40Hz,並能夠將它們解碼回採樣率爲24,000Hz 的語音信號。爲了使模型能夠輸出語音令牌,在文本令牌之後添加了兩個語音解碼器:非自迴歸(NAR)語音解碼器和自迴歸(AR)語音解碼器。

VITA-1.5的訓練數據涵蓋了廣泛的類別,如字幕數據和問答數據,包括中文和英文。在不同的訓練階段,會選擇性地採樣整個數據集的子集,以服務於不同的目標。訓練策略分三個階段進行:

第一階段:視覺-語言訓練,包括視覺對齊、視覺理解和視覺有監督微調,旨在彌合視覺和語言之間的差距,並使模型能夠理解圖像內容和回答視覺問題。

第二階段:音頻輸入調優,包括音頻對齊和音頻有監督微調,旨在使模型能夠理解音頻輸入,並能夠通過語音提問和文本回答進行交互。

第三階段:音頻輸出調優,包括編解碼器訓練和 NAR + AR 解碼器訓練,旨在使模型能夠生成語音輸出,實現端到端的語音交互。

研究人員對圖像、視頻和語音理解的各種基準進行了廣泛的評估,並將結果與開源和專有模型進行了比較。結果表明,VITA-1.5在圖像和視頻任務上表現出了與領先的 MLLM 相媲美的感知和推理能力,並在語音能力方面取得了顯著改進。例如,在圖像理解基準測試中,VITA-1.5的性能與最先進的開源模型相當,甚至超過了一些封閉源模型。在視頻理解方面,VITA-1.5的表現與頂級開源模型相當。此外,VITA-1.5在中文和英文的 ASR 任務中都取得了領先的準確率,超越了專業的語音模型。

總的來說,VITA-1.5通過精心設計的三階段訓練策略,成功地將視覺和語音集成在一起,實現了強大的視覺和語音理解能力,從而能夠進行高效的語音到語音交互,而無需依賴單獨的 ASR 或 TTS 模塊。這項研究有望推動開源模型在實時多模態交互領域的進步。

項目地址:https://github.com/VITA-MLLM/VITA