中國大模型正在全模態交互領域實現從“追隨”到“領跑”的華麗轉身。

3月30日,阿里 正式發佈千問新一代全模態大模型 Qwen3.5-Omni。該模型憑藉混合注意力 MoE 架構,實現了圖片、視頻、語音及文字的無縫全模態輸入與輸出,標誌着國產大模型在視聽交互領域達到了全球頂尖水平。

image.png

全能戰力:215項任務奪冠,硬核超越 Gemini

在衡量大模型綜合實力的硬指標上,Qwen3.5-Omni 展現了統治級的表現:

SOTA 霸榜: 在音視頻理解、識別與交互等共計215項測試任務中,該模型均取得 SOTA(性能最佳)表現。

對標優勝: 在 DailyOmni、QualcommInteractive 等聚焦視聽交互的測試中,其得分大幅領先 Google 的 Gemini-3.1Pro。

抗干擾神技: 在嘈雜環境下的 WenetSpeech 測試中,其識別準確率極高,錯誤率遠低於對手。

交互革命:113種語言識別與“動動嘴”編程

Qwen3.5-Omni 不僅更聰明,而且更懂“方言”和“代碼”:

語言專家: 支持113種語言及方言的識別,甚至是毛利語、海南方言等小衆語言也能精準捕捉。

Vibe Coding 進化: 開啓了音視頻編程新時代。用戶只需打開攝像頭,對着草圖口述需求,模型即可直接生成帶有複雜 UI 的產品原型界面,真正實現“所說即所得”。

生產力爆發:10小時音頻長程理解

針對專業領域,新模型提供了極強的結構化處理能力:

視頻深度拆解: 能對畫面主體、人物關係及情緒起伏進行極細顆粒度的拆解。

自動切片: 支持超過10小時的音頻輸入,並能自動完成視頻章節切片與時間戳標註,極大提升了內容創作效率。

普惠生態:價格僅爲 Gemini 的十分之一

阿里雲百鍊 平臺已同步上線 Plus、Flash、Light 三種 API,旨在爲企業提供最具性價比的選擇:

成本極低: 每百萬 Tokens 輸入成本低於0.8元,價格不到 Gemini-3.1Pro 的十分之一。

市場領先: 目前 千問 已服務超100萬家客戶,穩居中國企業級大模型調用市場第一

結語:從“理解文字”到“感知世界”

Qwen3.5-Omni 的發佈,不僅是阿里技術實力的展現,更是國產大模型邁向“全能交互”的重要里程碑。當模型能夠像人類一樣聽懂方言、看懂草圖、理解情緒,AI 將真正從屏幕裏的對話框走出來,成爲各行各業觸手可及的超級生產力工具。