阿里通義發佈 Fun-CineForge：開源影視級配音大模型，攻克音畫同步難題

阿里通義實驗室於3月16日正式發佈並開源了影視級多場景配音多模態大模型 Fun-CineForge。該模型旨在解決 AI 配音中長期存在的口型不同步、情感表達缺失以及多角色音色不一致等核心痛點，並同步開放了高質量數據集構建方法。

在技術架構上，Fun-CineForge 首次引入了“時間模態”概念。不同於傳統模型僅關注文本或視覺信息，該模型通過精準的時間戳控制，確保語音在正確的時間區間內合成。即便在畫面中人物被遮擋、鏡頭頻繁切換或面部模糊的複雜影視場景下，模型依然能實現極高的音畫同步率和指令遵循能力。

配套開源的 CineDub 數據集構建流程則是另一大亮點。通義實驗室利用大模型思維鏈技術，將原始影視素材自動化轉化爲結構化數據，大幅降低了人工標註成本。數據顯示，該流程將中英文字錯率降低至1% 左右，說話人分離錯誤率僅爲1.20%，爲大模型提供了極具競爭力的訓練基石。

目前，Fun-CineForge 已在 GitHub、HuggingFace 和魔搭社區同步上線，支持30秒以內的短視頻片段推理。它不僅在單人獨白場景下表現優異，還率先實現了對雙人及多人對話場景的專業級支持。這一突破標誌着 AI 語音技術正從基礎的客服、助手場景，向高標準的動漫、影視後期製作領域邁進。

GitHub:https://github.com/FunAudioLLM/FunCineForge
HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge

ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/

AI當家做主六個月:克勞德鬧罷工、Grok 飆代碼，只有GPT在認真“打工”

人工智能初創公司Andon Labs進行了一項爲期六個月的實驗，讓Claude、GPT、Gemini和Grok四大AI模型在相同初始條件下自主運營網絡電臺，包括相同的提示詞、20美元預算及完全控制權。結果，各模型在無人干預後表現出截然不同的極端行爲，從混亂到高效，凸顯了AI自主運行中的不可預測性。

運行內存12GB起步！谷歌Gemini Intelligence拉高硬件門檻

谷歌推出面向安卓平臺的Gemini Intelligence功能套件，並非品牌重塑，而是一套高級AI能力。它能在後臺自主執行多步驟任務，跨應用和網站自動檢索處理信息。爲支持強大本地AI模型，設備需至少配備12GB運行內存，這限制了新特性的適用設備範圍。

"暫不公開"聲音克隆技術的OpenAI，偷偷把做聲音克隆的公司買了

OpenAI兩年前已研發出聲音克隆技術，但認爲時機不成熟未公開。近期，他們低調收購AI模型社區平臺Weights.gg，包括其團隊和全部知識產權。該平臺旗下有Rep等產品，收購細節未披露。此舉顯示OpenAI可能在聲音克隆等領域加速佈局。

阿里通義發佈 Fun-CineForge：開源影視級配音大模型，攻克音畫同步難題

相關推薦

ChatGPT上線個人理財工具：連接1. 2 萬家金融機構，OpenAI正式切入"錢袋子"賽道

視頻生成的新勢力：Runway 如何打破硅谷常規挑戰谷歌

AI當家做主六個月:克勞德鬧罷工、Grok 飆代碼，只有GPT在認真“打工”

運行內存12GB起步！谷歌Gemini Intelligence拉高硬件門檻

"暫不公開"聲音克隆技術的OpenAI，偷偷把做聲音克隆的公司買了

​阿里通義發佈 Fun-CineForge：開源影視級配音大模型，攻克音畫同步難題

相關推薦

ChatGPT上線個人理財工具：連接1. 2 萬家金融機構，OpenAI正式切入"錢袋子"賽道

視頻生成的新勢力：Runway 如何打破硅谷常規挑戰谷歌

AI當家做主六個月:克勞德鬧罷工、Grok 飆代碼，只有GPT在認真“打工”

運行內存12GB起步！谷歌Gemini Intelligence拉高硬件門檻

"暫不公開"聲音克隆技術的OpenAI，偷偷把做聲音克隆的公司買了

阿里通義發佈 Fun-CineForge：開源影視級配音大模型，攻克音畫同步難題