最近,騰訊優圖實驗室等機構的研究者們推出了首個開源的多模態大語言模型VITA,它能夠同時處理視頻、圖像、文本和音頻,而且,它的交互體驗也是一流的。

VITA模型的誕生,是爲了填補大型語言模型在處理中文方言方面的不足。它基於強大的Mixtral8×7B模型,擴展了中文詞彙量,進行了雙語指令微調,讓VITA不僅精通英語,還能流利地使用中文。

image.png

主要特點:

多模態理解:VITA能夠處理視頻、圖像、文本和音頻,這在開源模型中是前所未有的。

自然交互:無需每次都說“嘿,VITA”,它就能在你說話時隨時響應,甚至在你和別人交談時,它也能保持禮貌,不隨意插嘴。

開源先鋒:VITA是開源社區在多模態理解和交互方面邁出的重要一步,爲後續研究奠定了基礎。

image.png

VITA的魔法來自於它的雙重模型部署。一個模型負責生成對用戶查詢的響應,另一個模型持續跟蹤環境輸入,確保每一次交互都能精準、及時。

VITA不僅能聊天,還能在你健身時充當聊天夥伴,甚至在你旅遊時提供建議。它還能根據你提供的圖片或視頻內容回答問題,展現出強大的實用性。

雖然VITA已經展現出了巨大的潛力,但在情感語音合成和多模態支持等方面,它還在不斷進化。研究者們計劃讓下一代VITA能夠從視頻和文本輸入生成高質量的音頻,甚至探索同時生成高質量音頻和視頻的可能性。

VITA模型的開源,不僅是技術的勝利,更是對智能交互方式的一次深刻革新。隨着研究的深入,我們有理由相信,VITA將爲我們帶來更加智能、更加人性化的交互體驗。

論文地址:https://arxiv.org/pdf/2408.05211