阿里通義實驗室於3月16日正式發佈並開源了影視級多場景配音多模態大模型 Fun-CineForge。該模型旨在解決 AI 配音中長期存在的口型不同步、情感表達缺失以及多角色音色不一致等核心痛點,並同步開放了高質量數據集構建方法。

在技術架構上,Fun-CineForge 首次引入了“時間模態”概念。不同於傳統模型僅關注文本或視覺信息,該模型通過精準的時間戳控制,確保語音在正確的時間區間內合成。即便在畫面中人物被遮擋、鏡頭頻繁切換或面部模糊的複雜影視場景下,模型依然能實現極高的音畫同步率和指令遵循能力。
配套開源的 CineDub 數據集構建流程則是另一大亮點。通義實驗室利用大模型思維鏈技術,將原始影視素材自動化轉化爲結構化數據,大幅降低了人工標註成本。數據顯示,該流程將中英文字錯率降低至1% 左右,說話人分離錯誤率僅爲1.20%,爲大模型提供了極具競爭力的訓練基石。

目前,Fun-CineForge 已在 GitHub、HuggingFace 和魔搭社區同步上線,支持30秒以內的短視頻片段推理。它不僅在單人獨白場景下表現優異,還率先實現了對雙人及多人對話場景的專業級支持。這一突破標誌着 AI 語音技術正從基礎的客服、助手場景,向高標準的動漫、影視後期製作領域邁進。
GitHub:https://github.com/FunAudioLLM/FunCineForge
HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
