AIbase12月9日報道 阿里巴巴Qwen團隊今日發佈新一代全模態大模型Qwen3-Omni-Flash-2025-12-01。該模型支持文本、圖像、音頻和視頻的無縫輸入,並通過實時流式響應同步生成高質量文本與自然語音,官方稱其語音表現自然度已逼近真人水平。

image.png

技術突破:實時流式全模態交互

Qwen3-Omni-Flash採用實時流式架構,可實現文本、圖像、音頻和視頻的無縫輸入與同步輸出。模型支持119種文本語言交互、19種語音識別語言和10種語音合成語言,確保跨語言場景下的準確響應。

個性化體驗:System Prompt開放自定義

新版本全面開放System Prompt自定義權限,用戶可精細調控模型行爲模式,包括設定「甜妹」「御姐」等特定人設風格,以及調整口語化表達偏好和回覆長度。模型能根據文本內容自適應調節語速、停頓與韻律。

image.png

性能提升:基準測試全面躍升

官方數據顯示,新模型在邏輯推理任務(ZebraLogic)上得分提升5.6,在代碼生成(LiveCodeBench-v6)上提升9.3,在多學科視覺問答(MMMU)上提升4.7,展現出強大的多模態理解與分析能力。

市場部署:API已上線,定價親民

Qwen3-Omni-Flash目前已通過API上線,輸入定價爲1元/百萬tokens,輸出爲3元/百萬tokens。模型已在Qwen Chat集成Demo,支持上傳30秒視頻並實時生成帶畫面口播。

行業意義:全模態進入「人格化」階段

當多模態仍在比拼能看懂多少圖,阿里直接把「實時流+人格化」做成API。對於直播、短視頻、虛擬會議等重語音、重風格場景,這相當於把「配音演員+後期口播」成本打到接近零。

下一步計劃:

2025年Q1將發佈70B輕量版,單卡A100可跑實時流;Q2開放「語音克隆10秒」接口;Q3上線「視頻驅動頭像」Beta功能。AIbase將持續跟蹤其語音克隆與視頻驅動頭像功能的開放進度。