阿里發佈全模態大模型Qwen3-Omni-Flash：實時流式輸出，支持 119 種語言交互

AIbase12月9日報道阿里巴巴Qwen團隊今日發佈新一代全模態大模型Qwen3-Omni-Flash-2025-12-01。該模型支持文本、圖像、音頻和視頻的無縫輸入，並通過實時流式響應同步生成高質量文本與自然語音，官方稱其語音表現自然度已逼近真人水平。

技術突破:實時流式全模態交互

Qwen3-Omni-Flash採用實時流式架構，可實現文本、圖像、音頻和視頻的無縫輸入與同步輸出。模型支持119種文本語言交互、19種語音識別語言和10種語音合成語言，確保跨語言場景下的準確響應。

個性化體驗:System Prompt開放自定義

新版本全面開放System Prompt自定義權限，用戶可精細調控模型行爲模式，包括設定「甜妹」「御姐」等特定人設風格，以及調整口語化表達偏好和回覆長度。模型能根據文本內容自適應調節語速、停頓與韻律。

性能提升:基準測試全面躍升

官方數據顯示，新模型在邏輯推理任務（ZebraLogic）上得分提升5.6，在代碼生成(LiveCodeBench-v6)上提升9.3，在多學科視覺問答(MMMU)上提升4.7，展現出強大的多模態理解與分析能力。

市場部署:API已上線，定價親民

Qwen3-Omni-Flash目前已通過API上線，輸入定價爲1元/百萬tokens，輸出爲3元/百萬tokens。模型已在Qwen Chat集成Demo，支持上傳30秒視頻並實時生成帶畫面口播。

行業意義:全模態進入「人格化」階段

當多模態仍在比拼能看懂多少圖，阿里直接把「實時流+人格化」做成API。對於直播、短視頻、虛擬會議等重語音、重風格場景，這相當於把「配音演員+後期口播」成本打到接近零。

下一步計劃:

2025年Q1將發佈70B輕量版，單卡A100可跑實時流;Q2開放「語音克隆10秒」接口;Q3上線「視頻驅動頭像」Beta功能。AIbase將持續跟蹤其語音克隆與視頻驅動頭像功能的開放進度。

騰訊遊戲啓動2026寒假未成年人保護專項行動，AI功能助力家庭科學管控

騰訊遊戲發佈2026年寒假未成年人遊戲限玩通知，規定29天寒假期間未成年人累計可玩遊戲15小時。同時啓動寒假未成年人保護專項行動，以“科技賦能家庭守護”爲核心，通過AI技術升級家長服務，並加強健康系統巡航與公益建設，應對假期用網時長增加及家庭共號等問題。

AI語音巨頭誕生！ElevenLabs狂攬5億刀融資，估值飆至110億美元，成全球最貴AI語音服務商