近日,VITA-MLLM 團隊宣佈推出 VITA-1.5,這是該團隊在 VITA-1.0基礎上推出的升級版本,致力於提升多模態交互的實時性與準確性。VITA-1.5不僅支持英語和中文,還在多項性能指標上實現了顯著提升,爲用戶提供了更流暢的交互體驗。
在 VITA-1.5中,互動延遲大幅降低,從原來的4秒縮短至僅1.5秒,用戶在進行語音交互時幾乎感受不到延遲。此外,該版本在多模態性能方面也有顯著提高,經過評估,VITA-1.5在 MME、MMBench 和 MathVista 等多個基準測試中的平均性能從59.8提升至70.8,展現了出色的能力。
VITA-1.5在語音處理能力上也進行了深度優化。其自動語音識別(ASR)系統的錯誤率顯著降低,從18.4降至7.5,這使得語音指令的理解和響應更加準確。同時,VITA-1.5引入了一個端到端的文本轉語音(TTS)模塊,該模塊能夠直接接受大型語言模型(LLM)的嵌入作爲輸入,從而提高語音合成的自然度和連貫性。
爲了確保多模態能力的平衡,VITA-1.5採用了漸進式訓練策略,使得新增的語音處理模塊對視覺 - 語言的表現影響最小,圖像理解性能從71.3輕微下降至70.8。團隊通過這些技術創新,進一步推動了實時視覺與語音交互的界限,爲未來的智能交互應用奠定了基礎。
在 VITA-1.5的使用方面,開發者可以通過簡單的命令行操作進行快速入門,並且提供了基礎和實時互動演示。用戶需要準備一些必要的模塊,例如語音活動檢測(VAD)模塊,以提升實時交互體驗。此外,VITA-1.5還將開源其代碼,方便廣大開發者參與和貢獻。
VITA-1.5的推出標誌着交互式多模態大語言模型領域的又一重要進展,展現了該團隊在技術創新和用戶體驗上的不懈追求。
項目入口:https://github.com/VITA-MLLM/VITA?tab=readme-ov-file
劃重點:
🌟 VITA-1.5大幅降低互動延遲,從4秒縮短至1.5秒,顯著提升用戶體驗。
📈 多模態性能提升,多個基準測試的平均性能從59.8提升至70.8。
🔊 語音處理能力增強,ASR 錯誤率從18.4降至7.5,語音識別更準確。