215 項 SOTA 狂攬！阿里發佈 Qwen3.5-Omni：全模態性能跨越式超越 Gemini

中國大模型正在全模態交互領域實現從“追隨”到“領跑”的華麗轉身。

3月30日，阿里正式發佈千問新一代全模態大模型 Qwen3.5-Omni。該模型憑藉混合注意力 MoE 架構，實現了圖片、視頻、語音及文字的無縫全模態輸入與輸出，標誌着國產大模型在視聽交互領域達到了全球頂尖水平。

全能戰力:215項任務奪冠，硬核超越 Gemini

在衡量大模型綜合實力的硬指標上，Qwen3.5-Omni 展現了統治級的表現:

SOTA 霸榜: 在音視頻理解、識別與交互等共計215項測試任務中，該模型均取得 SOTA（性能最佳）表現。

對標優勝: 在 DailyOmni、QualcommInteractive 等聚焦視聽交互的測試中，其得分大幅領先 Google 的 Gemini-3.1Pro。

抗干擾神技: 在嘈雜環境下的 WenetSpeech 測試中，其識別準確率極高，錯誤率遠低於對手。

交互革命:113種語言識別與“動動嘴”編程

Qwen3.5-Omni 不僅更聰明，而且更懂“方言”和“代碼”:

語言專家: 支持113種語言及方言的識別，甚至是毛利語、海南方言等小衆語言也能精準捕捉。

Vibe Coding 進化: 開啓了音視頻編程新時代。用戶只需打開攝像頭，對着草圖口述需求，模型即可直接生成帶有複雜 UI 的產品原型界面，真正實現“所說即所得”。

生產力爆發:10小時音頻長程理解

針對專業領域，新模型提供了極強的結構化處理能力:

視頻深度拆解: 能對畫面主體、人物關係及情緒起伏進行極細顆粒度的拆解。

自動切片: 支持超過10小時的音頻輸入，並能自動完成視頻章節切片與時間戳標註，極大提升了內容創作效率。

普惠生態:價格僅爲 Gemini 的十分之一

阿里雲百鍊 平臺已同步上線 Plus、Flash、Light 三種 API，旨在爲企業提供最具性價比的選擇:

成本極低: 每百萬 Tokens 輸入成本低於0.8元，價格不到 Gemini-3.1Pro 的十分之一。

市場領先: 目前千問已服務超100萬家客戶，穩居中國企業級大模型調用市場第一。

結語:從“理解文字”到“感知世界”

Qwen3.5-Omni 的發佈，不僅是阿里技術實力的展現，更是國產大模型邁向“全能交互”的重要里程碑。當模型能夠像人類一樣聽懂方言、看懂草圖、理解情緒，AI 將真正從屏幕裏的對話框走出來，成爲各行各業觸手可及的超級生產力工具。

中國電信把5G建網交給大模型：規劃效率翻一半，方案准確率站上75%