阿里巴巴重磅發佈全模態大模型 Qwen3-Omni

阿里巴巴近日發佈了通義全模態預訓練大模型 Qwen3-Omni 系列。這款模型的特點在於其能夠處理音頻、視頻及文本等多種信息，堪比人類的感知能力。這不僅是 AI 技術的重大進步，也爲未來的應用場景打開了更多可能。

據悉，Qwen3-Omni 在36項音視頻基準測試中，取得了22項 SOTA（State Of The Art）水平的成績，表現出色，甚至在32項測試中成爲開源模型中的佼佼者。特別是在語音識別和音頻理解方面，其能力已達到與谷歌的 Gemini2.5-Pro 不相上下的水平。這無疑爲需要高質量音頻處理的應用奠定了堅實的基礎。

通義 Qwen (2)

圖源備註：圖片由AI生成

Qwen3-Omni 的設計理念獨特，其一開始就進行了 “聽”“說”“寫” 多模態的混合訓練，模擬人類嬰兒對世界的全面感知。這種訓練方法結合了單模態和跨模態數據，使得模型在音頻和視頻處理上表現優異的同時，文本和圖像的處理能力也保持了穩定。這是行業內首次實現如此全面的訓練效果，顯示了阿里在 AI 技術上的前瞻性和創新性。

未來，Qwen3-Omni 有望廣泛應用於智能客服、內容創作、語音交互等領域，爲用戶提供更智能、更人性化的服務。隨着技術的不斷進步，我們可以期待 AI 與生活的結合將更加緊密，爲我們帶來更加便捷的體驗。

阿里巴巴的這一創新，標誌着全模態 AI 的發展邁上了新臺階，也爲全球科技公司提供了新的參考標杆。

NVIDIA 發佈 Nemotron 3 Embed 系列，8B 版本登頂 RTEB 檢索基準

NVIDIA推出Nemotron3Embed嵌入向量模型系列，專爲生產級RAG、智能體檢索、代碼檢索和記憶場景設計。8B版本在RTEB基準測試中排名第一，成爲性能最強的開源嵌入模型。系列包含三個開放檢查點：精度優先的Nemotron-3-Embed-8B-BF16、輕量化的1B-BF16版，以及針對Blackwell架構優化的1B-NVFP4四比特版本，所有模型均採用雙向注意力機制。

阿里巴巴重磅發佈全模態大模型 Qwen3-Omni

相關推薦

NVIDIA 發佈 Nemotron 3 Embed 系列，8B 版本登頂 RTEB 檢索基準

銀河通用機器人創始人王鶴： 2028 年，具身智能的 “ChatGPT 時刻” 即將來臨！

超低延遲 AI 對話神器！Wan-Streamer v0.2 讓你與 AI 零距離溝通

文遠知行推出物理 AI 大模型 WITT

百度沈抖：每位員工每月發 1000 元額度自由體驗主流大模型，強制推行AI辦公難見效