近日,由阿里巴巴通義實驗室(Tongyi Lab)語音團隊與中國科學技術大學聯合打造的 Fun-CineForge 項目正式宣佈開源。該項目針對影視劇配音中的口型同步、音色遷移及情感表達等核心難題,推出了一套端到端的生產流水線及大模型解決方案。

核心突破:解決影視配音“齣戲”痛點
傳統的 AI 配音往往面臨口型對不上、情感機械以及難以適應複雜影視場景(如對白、多人混響)的問題。Fun-CineForge 通過以下兩項核心創新實現了質的飛躍:
MLLM 配音模型:不再單純依賴脣部區域學習音視頻對齊,而是基於多模態大模型(MLLM)架構,能夠深度理解影視場景中的角色身份與情感波動。
CineDub 大規模數據集:利用自動化流水線構建了首個帶有豐富標註的中文電視劇配音數據集,涵蓋了獨白、旁白、對白及多發言人等多樣化場景。
項目動態與開源計劃
該項目近期更新頻繁,展示了極高的工程完成度:
2026年1月至3月:先後發佈了中文(CineDub-CN)與英文(CineDub-EN)的數據集樣本及演示 Demo。
2026年3月16日:正式開源推理代碼與模型權重(Checkpoints),開發者現可通過 GitHub 獲取相關資源。
數據集獲取:目前已開放包括《紅樓夢》(中文)和《唐頓莊園》(英文)在內的多個經典劇目數據集樣本供研究使用。
技術實戰:從“對話”到“表演”
根據官方展示的 Demo,該模型在《三國演義》等經典劇集的重塑中表現驚人。通過輸入特定的“情感線索(Clue)”,模型能精準捕捉角色從恐懼到反抗的情感轉變,實現高保真的音色克隆與自然的口型匹配。
Fun-CineForge 的出現,標誌着影視 AI 配音從簡單的“文字轉語音”邁向了具備藝術理解力的“自動化後期生產”,有望大幅降低譯製片及影視劇後期的製作成本。
項目:https://funcineforge.github.io/
