通義實驗室發佈語音雙模型:Fun-CosyVoice3.5與Fun-AudioGen-VD上線

今日，通義實驗室宣佈正式發佈兩款支持“FreeStyle”指令生成的語音大模型:Fun-CosyVoice3.5與Fun-AudioGen-VD。此次發佈標誌着語音生成技術從依賴預設標籤的傳統範式，向基於自然語言指令自由控制的新範式跨越，實現了“一句話自由生成語音”的深度交互體驗。

在技術架構與功能升級方面，Fun-CosyVoice3.5側重於多語種復刻與精細化表達，新增泰語、印尼語等4個語種支持。通過引入DiffRO與GRPO強化學習技術，該模型顯著提升了語音的韻律表現與音質相似度，其生僻字讀錯率從15.2%大幅降至5.3%，首包延遲亦降低了35%。與之互補的Fun-AudioGen-VD則專注於聲音設計與場景化建模，支持通過指令精確控制性別、情緒及空間聲學效果，能夠模擬從“瘋狂反派”到“熱鬧咖啡館”等複雜的角色與背景音一體化場景。

從行業趨勢來看，通義實驗室這一動作將語音生成從單純的轉換工具升級爲創作工具。這種可描述、可編排的數字表達能力，將直接賦能影視、遊戲及AI智能體等領域，在降低內容創作成本的同時，極大拓展了人機交互的語義豐富度。

API調用:https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP

文檔:https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api?spm=a2c4g.11186623.help-menu-search-2400256.d_2

阿里通義實驗室發佈Wan2.7-Video視頻生成模型

通義實驗室推出Wan2.7-Video視頻創作工具，旨在解決AI視頻創作中內容不專業和修改困難兩大痛點。該工具支持文本、圖像、視頻和音頻全模態輸入，提供先進的模型以提升畫面結構、劇情走向等內容的生成質量，增強創作自由度與編輯靈活性。

AI 編程進入“靠譜”時代：通義實驗室正式發佈 Qwen3.6-Plus

通義實驗室發佈Qwen3.6-Plus模型，聚焦解決智能體編程中“任務執行不穩”問題。該模型通過阿里雲百鍊API開放調用，核心升級在於融合深度邏輯推理、海量記憶與精準執行，顯著提升編碼能力，尤其在前端頁面生成、代碼修復及終端自動化場景表現卓越。

全面超越 Gemini-3.1Pro！Qwen3.5-Omni 震撼發佈:215項 SOTA 開啓全感官 AI 時代

通義實驗室發佈多模態大模型Qwen3.5-Omni，實現理解力、交互感和任務執行力的跨越式進化，推動AI從“屏幕助手”邁向“理解物理世界的智能體”。該模型採用原生“全模態”架構，能無縫處理文本、圖像、音頻和視頻輸入，在音視頻分析、推理、對話及翻譯測試中表現卓越。

通義實驗室發佈語音雙模型:Fun-CosyVoice3.5與Fun-AudioGen-VD上線

相關推薦

阿里通義實驗室發佈Wan2.7-Video視頻生成模型

AI 編程進入“靠譜”時代：通義實驗室正式發佈 Qwen3.6-Plus

全面超越 Gemini-3.1Pro！Qwen3.5-Omni 震撼發佈:215項 SOTA 開啓全感官 AI 時代

通義開源首個影視級配音大模型：AI 終於學會了“有感情地說話”

阿里確認通義千問負責人林俊暘離職，CEO吳泳銘牽頭成立基礎模型支持小組