最近、アリババ・トンイ・ラボ(Tongyi Lab)の音声チームと中国科学技術大学が共同で開発したFun-CineForgeプロジェクトが正式にオープンソース化されました。このプロジェクトは、映画やテレビドラマの吹き替えにおける口元の同期、音色の移動、感情表現などの重要な課題に対応し、エンドツーエンドの製造プロセスおよび大規模モデルの解決策を提供しています。

image.png

コアな進展:映画吹き替えの「不自然さ」の問題を解決

従来のAI吹き替えは、口元と音声が合わない、感情が機械的で、複雑な映画シーン(会話や多人数の混声など)に適応できないという問題があります。Fun-CineForgeは以下の2つの重要な革新により質的な飛躍を遂げています:

  • MLLM吹き替えモデル:唇の領域だけに依存するのではなく、マルチモーダル大規模モデル(MLLM)構造に基づいて、映画シーンにおけるキャラクターの身分と感情の変動を深く理解できます。

  • CineDubの大規模データセット:自動化されたフローを用いて、最初の豊富なラベル付き中国語ドラマ吹き替えデータセットを構築しました。これは独白、ナレーション、会話、多発言者など多様なシナリオをカバーしています。

プロジェクトの最新情報とオープンソース計画

このプロジェクトは最近頻繁に更新されており、非常に高い完成度を示しています:

  • 2026年1月から3月:中国語(CineDub-CN)と英語(CineDub-EN)のデータセットのサンプルとデモデモを順次公開しました。

  • 2026年3月16日:正式に推論コードとモデルの重み(Checkpoints)をオープンソース化しました。開発者はGitHubから関連リソースを取得できます。

  • データセットの取得:現在、『紅楼夢』(中国語)と『ダウントン・アビー』(英語)を含む複数の古典的なドラマのデータセットのサンプルが研究用途のために公開されています。

技術実践:「会話」から「パフォーマンス」へ

公式に公開されたデモによると、このモデルは『三国志』などの古典的なドラマの再構築において驚くほど優れた結果を出しています。特定の「感情のヒント(Clue)」を入力することで、モデルは役割の恐怖から反逆への感情の変化を正確に捉え、高品質な音色のクローン作成と自然な口元の一致を実現します。

Fun-CineForgeの登場により、映画・テレビドラマのAI吹き替えは単なる「テキストから音声への変換」から、芸術的理解力を備えた「自動後処理生産」へと進化しました。これにより、字幕映画やドラマの後期制作コストを大幅に削減できることが期待されます。

プロジェクト:https://funcineforge.github.io/