影視配音進入AI時代:通義實驗室開源Fun-CineForge，首克多人對話難題

傳統的 AI 配音在面對影視、動畫等高標準場景時，常因難以匹配複雜的情緒爆發和精準口型而遭遇瓶頸。針對這一痛點，通義實驗室正式發佈並開源了首個影視級多場景配音多模態大模型——Fun-CineForge。

不同於僅依賴文字轉語音的傳統模型，Fun-CineForge 旨在攻克影視製作中的四大核心挑戰:

Fun-CineForge 的技術突破在於其獨有的 “數據+模型”一體化設計:

CineDub 高質量數據集: 通義實驗室配套開源了 CineDub 自動化數據集構建流程。該流程利用思維鏈糾錯機制，將中英文文本轉錄錯率降至 1% -2% 左右，說話人分離錯誤率大幅降至 1.2%。
四模態融合架構: 模型首次引入 “時間模態”，配合視覺（脣形表情）、文本（臺詞情感）和音頻（音色參考）共同建模。這使得模型即便在“看不到”人臉的複雜場景下，也能依靠時間監督目標實現精準同步。

實驗數據顯示，Fun-CineForge 在詞錯率（WER/CER）、脣部同步度(LSE-C/D)及音色相似度上均顯著優於 DeepDubber-V1等基線模型。尤其值得關注的是，該模型首次實現了對雙人及多人對話場景的精準支持，在30秒以內的視頻片段中表現出極強的魯棒性。

OpenAI 發佈 ChatGPT Images2.0，印度市場貢獻首周最大用戶增量

OpenAI 週四宣佈，其新圖像生成工具ChatGPT Images2.0發佈後，印度成爲最大用戶羣體。該工具可處理複雜提示並生成含多語言文本的精細圖像，深化多模態交互。Sensor Tower數據顯示，全球下載量首周環比增11%，但日活躍用戶和會話數等核心參與指標呈現地域差異。

告別通用模型依賴，微軟通過定製算法開啓垂直領域 AI 助手新範式