通義實驗室昨晚正式發佈全新多模態大模型 Qwen3.5-Omni。相比前代,該模型在理解力、交互感與任務執行力上實現了跨越式進化,標誌着 AI 正在從“屏幕內的助手”真正走向“理解物理世界的智能體”。
核心突破:全模態與215項 SOTA
Qwen3.5-Omni 採用原生的 “全模態”架構,能夠無縫處理文本、圖像、音頻及視頻輸入。在涵蓋音視頻分析、推理、對話及翻譯的測試中,該模型斬獲了 215項 SOTA(業界最佳) 戰績。特別是在通用音頻理解與識別領域,其表現已全面超越 Gemini-3.1Pro,而視覺與文本能力則保持了與同尺寸 Qwen3.5模型持平的頂尖水準。

技術深剖:Hybrid-Attention MoE 架構
模型延續了經典的 Thinker-Talker 分工模式,並進行了底層重構:
Thinker(理解中樞): 升級爲 Hybrid-Attention MoE,支持 256K 超長上下文。這使其能處理長達 10小時的音頻 或 1小時的視頻,並利用 TMRoPE 技術精準抓取長時序中的細粒度信息。
Talker(表達中樞): 引入全新的 ARIA 技術 與 RVQ 編碼,替代了沉重的 DiT 運算。這不僅解決了語音輸出中常見的漏字、數字誤讀問題,還賦予了模型強大的實時語音控制能力。

場景落地:從 Vibe Coding 到音色克隆
Qwen3.5-Omni 的進化直接轉化爲了多個突破性的應用場景:
自然涌現的 Vibe Coding: 模型在未經過專門訓練的情況下,展現出了驚人的代碼理解與生成能力,能根據視頻畫面邏輯直接生成 Python 代碼或前端原型。
擬人化實時交互: 支持語義打斷。它能分辨咳嗽等雜音與真正插話的區別,並允許用戶通過指令調節語氣(如“開心的”)與音量。
細粒度視頻拆解: 可生成帶時間戳的結構化 Caption,精準識別視頻中的人物動作、背景音樂變化及鏡頭切換。
個性化音色克隆: 用戶僅需上傳一段錄音,即可定製具備高自然度、支持113種語言的專屬“數字分身”。
目前,Qwen3.5-Omni 已在阿里雲百鍊平臺上線,提供 Plus、Flash、Light 三種尺寸,並同步開放了實時對話(Realtime)API 及魔搭社區 Demo。
