傳統的 AI 配音在面對影視、動畫等高標準場景時,常因難以匹配複雜的情緒爆發和精準口型而遭遇瓶頸。針對這一痛點,通義實驗室正式發佈並開源了首個影視級多場景配音多模態大模型——
突破“聲畫脫節”:四大嚴苛維度的協同
不同於僅依賴文字轉語音的傳統模型,Fun-CineForge 旨在攻克影視製作中的四大核心挑戰:
口型同步: 實現合成語音與畫面脣部運動的高度一致。
情緒表達: 結合面部形象與指令描述,賦予聲音擬人化的情感深度。
音色一致性: 在複雜的多角色對話中保持特定人物的音色穩定。
時間對齊: 即使說話人被遮擋或不在畫內,語音也能在毫秒級精確的時間點切入。
核心技術:引入“時間模態”與高質量數據集
Fun-CineForge 的技術突破在於其獨有的 “數據+模型”一體化設計:

CineDub 高質量數據集: 通義實驗室配套開源了 CineDub 自動化數據集構建流程。該流程利用思維鏈糾錯機制,將中英文文本轉錄錯率降至 1% -2% 左右,說話人分離錯誤率大幅降至 1.2%。
四模態融合架構: 模型首次引入 “時間模態”,配合視覺(脣形表情)、文本(臺詞情感)和音頻(音色參考)共同建模。這使得模型即便在“看不到”人臉的複雜場景下,也能依靠時間監督目標實現精準同步。
表現卓越:填補多人對話配音空白
實驗數據顯示,Fun-CineForge 在詞錯率(WER/CER)、脣部同步度(LSE-C/D)及音色相似度上均顯著優於 DeepDubber-V1等基線模型。尤其值得關注的是,該模型首次實現了對雙人及多人對話場景的精準支持,在30秒以內的視頻片段中表現出極強的魯棒性。
GitHub:https://github.com/FunAudioLLM/FunCineForge
HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
