従来のAIナレーションは、映画やアニメなどの高水準なシーンにおいて、複雑な感情の爆発や正確な口元の一致を難しく感じることがあり、限界に直面することがあります。この問題に対応するために、通義ラボは、初めての映画レベルのマルチシナリオ対応のマルチモーダル大規模モデルである——Fun-CineForge——を正式にリリースし、オープンソース化しました。

「声と画像の不一致」の突破:4つの厳格な次元の協調

従来のモデルがテキストから音声への変換に依存しているのとは異なり、Fun-CineForge は映画制作における4つの核心的な課題を克服することを目指しています:

  • 口元の同期: 合成された音声と画面の唇の動きの高い一致を実現します。

  • 感情表現: 面貌と指示説明を組み合わせて、声に人間的な感情の深さを与えることができます。

  • 音色の一貫性: 複雑な多人数会話の中で、特定人物の音色を安定させます。

  • 時間の整合: 说话者が遮蔽されているか、画面上にいない場合でも、ミリ秒単位で正確なタイミングで音声を挿入できます。

コア技術:「時間モダリティ」と高品質データセットの導入

Fun-CineForge の技術的突破は、独自の 「データ+モデル」一体化設計 です:

QQ20260316-152310.jpg

  1. CineDub 高品質データセット: 通義ラボは CineDub 自動データセット構築プロセスを同時にオープンソース化しました。このプロセスはチェーン・オブ・トゥークエラー修正メカニズムを使用し、中英文のテキスト転記誤り率を約 1%〜2% にまで低下させ、スピーカー分離誤り率を大幅に低下させました 1.2%

  2. 4モダリティ統合アーキテクチャ: モデルは初めて 「時間モダリティ」 を導入し、視覚(口元の表情)、テキスト(台詞の感情)および音声(音色の参照)を一緒にモデリングします。これにより、顔が見えない複雑なシナリオでも、時間の監督目標に従って正確な同期を実現することができます。

優れた性能:多人数会話のナレーションの空白を埋める

実験データによると、Fun-CineForge は語彙誤り率(WER/CER)、唇部同期度(LSE-C/D)および音色類似度において、DeepDubber-V1などのベースラインモデルよりも顕著に優れています。特に注目すべきは、このモデルが最初に二人以上による会話シナリオの正確なサポートを実現したことです。30秒以内のビデオセグメントでは非常に高いロバスト性を示しています。

  • GitHub: https://github.com/FunAudioLLM/FunCineForge

  • HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge

  • ModelScope: https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/