GPT-4o 級別！VITA-1.5：實時視覺與語音交互， 1.5秒互動延遲

近日，VITA-MLLM 團隊宣佈推出 VITA-1.5，這是該團隊在 VITA-1.0基礎上推出的升級版本，致力於提升多模態交互的實時性與準確性。VITA-1.5不僅支持英語和中文，還在多項性能指標上實現了顯著提升，爲用戶提供了更流暢的交互體驗。

在 VITA-1.5中，互動延遲大幅降低，從原來的4秒縮短至僅1.5秒，用戶在進行語音交互時幾乎感受不到延遲。此外，該版本在多模態性能方面也有顯著提高，經過評估，VITA-1.5在 MME、MMBench 和 MathVista 等多個基準測試中的平均性能從59.8提升至70.8，展現了出色的能力。

VITA-1.5在語音處理能力上也進行了深度優化。其自動語音識別（ASR）系統的錯誤率顯著降低，從18.4降至7.5，這使得語音指令的理解和響應更加準確。同時，VITA-1.5引入了一個端到端的文本轉語音(TTS)模塊，該模塊能夠直接接受大型語言模型(LLM)的嵌入作爲輸入，從而提高語音合成的自然度和連貫性。

爲了確保多模態能力的平衡，VITA-1.5採用了漸進式訓練策略，使得新增的語音處理模塊對視覺 - 語言的表現影響最小，圖像理解性能從71.3輕微下降至70.8。團隊通過這些技術創新，進一步推動了實時視覺與語音交互的界限，爲未來的智能交互應用奠定了基礎。

在 VITA-1.5的使用方面，開發者可以通過簡單的命令行操作進行快速入門，並且提供了基礎和實時互動演示。用戶需要準備一些必要的模塊，例如語音活動檢測（VAD）模塊，以提升實時交互體驗。此外，VITA-1.5還將開源其代碼，方便廣大開發者參與和貢獻。

VITA-1.5的推出標誌着交互式多模態大語言模型領域的又一重要進展，展現了該團隊在技術創新和用戶體驗上的不懈追求。

項目入口:https://github.com/VITA-MLLM/VITA?tab=readme-ov-file

劃重點:
🌟 VITA-1.5大幅降低互動延遲，從4秒縮短至1.5秒，顯著提升用戶體驗。
📈 多模態性能提升，多個基準測試的平均性能從59.8提升至70.8。
🔊 語音處理能力增強，ASR 錯誤率從18.4降至7.5，語音識別更準確。

Google AI“炸裂”新功能曝光！下一代客戶服務助手有多絲滑？

在2025年4月舉辦的Google Cloud Next25大會上，Google展示了一款令人矚目的下一代客戶服務智能助手。這段演示視頻近日在網絡上引發熱議，其流暢的操作體驗和強大的功能被網友形容爲“炸裂”且“絲滑”。多模態交互:實時洞察用戶需求Google的這款客戶服務智能助手基於Gemini模型開發，展現了強大的多模態交互能力。據演示內容，AI不僅能夠實時查看用戶的購物車信息，精準識別購買意向，還能通過申請調用用戶攝像頭，協助解決商品相關問題。例如，用戶可通過視頻展示產品瑕疵，AI則能快

xAI推出Grok Vision，開啓視覺與多語言智能交互新篇章

xAI宣佈爲其旗艦AI助手Grok推出全新Grok Vision功能，標誌着Grok在多模態交互領域的重大突破。據AIbase瞭解，Grok Vision通過智能手機攝像頭實時分析現實世界的物體、文本和環境，並結合多語言語音支持與實時搜索功能，爲用戶提供無縫的智能交互體驗。相關細節已在xAI官網與社交平臺公佈，引發了全球AI社區的廣泛熱議。核心功能:視覺分析與多語言語音無縫融合Grok Vision將視覺處理、多語言語音與實時搜索整合，顯著提升了Grok的實用性與用戶體驗。AIbase梳理了其主要功能: 實時視覺分析:通過

ChatGPT 誕生兩週年，用戶數突破2億

ChatGPT 自2022年推出以來，其發展歷程標誌着人機互動的重大轉變。從最初的新奇實驗，迅速成長爲很多人日常生活中不可或缺的數字工具。根據統計，ChatGPT 在推出後的短短五天內便吸引了超過一百萬用戶，而到2023年11月，每週活躍用戶數更是達到了1億，2024年8月這一數字已突破2億，月訪問量達到約31億次。如此驚人的用戶基礎，體現了 ChatGPT 在日常生活中的廣泛應用。隨着技術的不斷進步，ChatGPT 在2024年5月推出了 GPT-4o 版本，實現了多模態交互。這一升級使得 AI 能夠處理和生成文本、圖

科大訊飛星火多模態交互大模型上線實現“語音、視覺、數字人交互”三合一

科大訊飛公司近日宣佈，其最新研發的訊飛星火多模態交互大模型正式投入運營。這一技術突破標誌着科大訊飛從單一的語音交互技術拓展到音視頻流實時多模態交互的新階段。新模型集成了語音、視覺和數字人交互功能，用戶可通過一鍵調用，實現三者的無縫結合。

萌寵升級！國內首款多模態 AI 四足機器人 BabyAlpha A2 驚豔亮相

9月26日，智能機器人公司"蔚藍科技"發佈了全新四足機器人BabyAlpha A2，以其多模態交互能力和親民價格，在國內智能家居市場掀起一陣旋風。BabyAlpha A2不僅是一款外形討喜的智能夥伴，更是家庭智能化的先鋒。作爲國內首款具備多模態交互能力的AI四足機器人，它以不到1萬元的售價，向普通家庭敞開了智能生活的大門。這款機器人集成了多項先進功能，包括個性化定製、繪本互動、遠程音視頻通話等，完美契合現代家庭的多樣化需求。最引人注目的是BabyAlpha A2的語言能力。內置的大語言模

GPT-4o 級別！VITA-1.5：實時視覺與語音交互， 1.5秒互動延遲

相關推薦

Google AI“炸裂”新功能曝光！下一代客戶服務助手有多絲滑？

xAI推出Grok Vision，開啓視覺與多語言智能交互新篇章

​ChatGPT 誕生兩週年，用戶數突破2億

科大訊飛星火多模態交互大模型上線 實現“語音、視覺、數字人交互”三合一

萌寵升級！國內首款多模態 AI 四足機器人 BabyAlpha A2 驚豔亮相

ChatGPT 誕生兩週年，用戶數突破2億

科大訊飛星火多模態交互大模型上線實現“語音、視覺、數字人交互”三合一