中國大模型正在全模態交互領域實現從“追隨”到“領跑”的華麗轉身。
3月30日,

全能戰力:215項任務奪冠,硬核超越 Gemini
在衡量大模型綜合實力的硬指標上,
SOTA 霸榜: 在音視頻理解、識別與交互等共計215項測試任務中,該模型均取得 SOTA(性能最佳)表現。
對標優勝: 在 DailyOmni、QualcommInteractive 等聚焦視聽交互的測試中,其得分大幅領先 Google 的 Gemini-3.1Pro。
抗干擾神技: 在嘈雜環境下的 WenetSpeech 測試中,其識別準確率極高,錯誤率遠低於對手。
交互革命:113種語言識別與“動動嘴”編程
語言專家: 支持113種語言及方言的識別,甚至是毛利語、海南方言等小衆語言也能精準捕捉。
Vibe Coding 進化: 開啓了音視頻編程新時代。用戶只需打開攝像頭,對着草圖口述需求,模型即可直接生成帶有複雜 UI 的產品原型界面,真正實現“所說即所得”。
生產力爆發:10小時音頻長程理解
針對專業領域,新模型提供了極強的結構化處理能力:
視頻深度拆解: 能對畫面主體、人物關係及情緒起伏進行極細顆粒度的拆解。
自動切片: 支持超過10小時的音頻輸入,並能自動完成視頻章節切片與時間戳標註,極大提升了內容創作效率。
普惠生態:價格僅爲 Gemini 的十分之一
成本極低: 每百萬 Tokens 輸入成本低於0.8元,價格不到 Gemini-3.1Pro 的十分之一。
市場領先: 目前
結語:從“理解文字”到“感知世界”
