騰訊推首個開源多模態大語言模型VITA 可與用戶進行無障礙溝通

最近，騰訊優圖實驗室等機構的研究者們推出了首個開源的多模態大語言模型VITA，它能夠同時處理視頻、圖像、文本和音頻，而且，它的交互體驗也是一流的。

VITA模型的誕生，是爲了填補大型語言模型在處理中文方言方面的不足。它基於強大的Mixtral8×7B模型，擴展了中文詞彙量，進行了雙語指令微調，讓VITA不僅精通英語，還能流利地使用中文。

主要特點:

多模態理解:VITA能夠處理視頻、圖像、文本和音頻，這在開源模型中是前所未有的。

自然交互:無需每次都說“嘿，VITA”，它就能在你說話時隨時響應，甚至在你和別人交談時，它也能保持禮貌，不隨意插嘴。

開源先鋒:VITA是開源社區在多模態理解和交互方面邁出的重要一步，爲後續研究奠定了基礎。

VITA的魔法來自於它的雙重模型部署。一個模型負責生成對用戶查詢的響應，另一個模型持續跟蹤環境輸入，確保每一次交互都能精準、及時。

VITA不僅能聊天，還能在你健身時充當聊天夥伴，甚至在你旅遊時提供建議。它還能根據你提供的圖片或視頻內容回答問題，展現出強大的實用性。

雖然VITA已經展現出了巨大的潛力，但在情感語音合成和多模態支持等方面，它還在不斷進化。研究者們計劃讓下一代VITA能夠從視頻和文本輸入生成高質量的音頻，甚至探索同時生成高質量音頻和視頻的可能性。

VITA模型的開源，不僅是技術的勝利，更是對智能交互方式的一次深刻革新。隨着研究的深入，我們有理由相信，VITA將爲我們帶來更加智能、更加人性化的交互體驗。

論文地址：https://arxiv.org/pdf/2408.05211

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

騰訊混元聯合UCLA、港中文等機構，針對多模態大語言模型（MLLMs）從“被動理解”向“主動推理”進化的需求，開源了多模態搜索智能體。此前，高質量數據、自動化軌跡合成路徑及訓練配方的缺失，導致頂尖智能體難以復現。此次開源旨在打破僵局，推動社區發展。

DeepSeek V4下週發佈:原生支持影音圖文生成，適配國產算力

深度求索將於下週發佈多模態大模型V4，原生支持圖像、視頻與文本生成，旨在填補國內高性能低成本開源多模態模型市場空白。這是繼1月發佈R1推理模型後的首次重大更新。發佈初期將提供簡要技術說明，一個月後公開詳細工程報告。V4模型已與華爲、寒武紀完成底層生態合作。

DeepSeek V4 發佈在即！全新多模態模型讓 AI 生成更智能

深度求索將於下週推出多模態大模型DeepSeek V4，原生支持圖像、視頻和文本生成。這是繼今年1月發佈R1推理模型後的首次重大更新，旨在滿足國內對低成本開源模型的需求，推動AI發展。同時將發佈簡要技術說明，詳細版本預計一個月後推出。

騰訊混元等聯合發佈首個古文字OCR評測基準 Chronicles-OCR