今日,通義實驗室宣佈正式發佈兩款支持“FreeStyle”指令生成的語音大模型:Fun-CosyVoice3.5與Fun-AudioGen-VD。此次發佈標誌着語音生成技術從依賴預設標籤的傳統範式,向基於自然語言指令自由控制的新範式跨越,實現了“一句話自由生成語音”的深度交互體驗。


在技術架構與功能升級方面,Fun-CosyVoice3.5側重於多語種復刻與精細化表達,新增泰語、印尼語等4個語種支持。通過引入DiffRO與GRPO強化學習技術,該模型顯著提升了語音的韻律表現與音質相似度,其生僻字讀錯率從15.2%大幅降至5.3%,首包延遲亦降低了35%。與之互補的Fun-AudioGen-VD則專注於聲音設計與場景化建模,支持通過指令精確控制性別、情緒及空間聲學效果,能夠模擬從“瘋狂反派”到“熱鬧咖啡館”等複雜的角色與背景音一體化場景。
從行業趨勢來看,通義實驗室這一動作將語音生成從單純的轉換工具升級爲創作工具。這種可描述、可編排的數字表達能力,將直接賦能影視、遊戲及AI智能體等領域,在降低內容創作成本的同時,極大拓展了人機交互的語義豐富度。
API調用:https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP
文檔:https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api?spm=a2c4g.11186623.help-menu-search-2400256.d_2