アリババのFun-CineForge：映画レベルのマルチモーダル音声合成大モデルと大規模データセットが登場

最近、アリババ・トンイ・ラボ（Tongyi Lab）の音声チームと中国科学技術大学が共同で開発したFun-CineForgeプロジェクトが正式にオープンソース化されました。このプロジェクトは、映画やテレビドラマの吹き替えにおける口元の同期、音色の移動、感情表現などの重要な課題に対応し、エンドツーエンドの製造プロセスおよび大規模モデルの解決策を提供しています。

コアな進展：映画吹き替えの「不自然さ」の問題を解決

従来のAI吹き替えは、口元と音声が合わない、感情が機械的で、複雑な映画シーン（会話や多人数の混声など）に適応できないという問題があります。Fun-CineForgeは以下の2つの重要な革新により質的な飛躍を遂げています:

MLLM吹き替えモデル:唇の領域だけに依存するのではなく、マルチモーダル大規模モデル（MLLM）構造に基づいて、映画シーンにおけるキャラクターの身分と感情の変動を深く理解できます。
CineDubの大規模データセット:自動化されたフローを用いて、最初の豊富なラベル付き中国語ドラマ吹き替えデータセットを構築しました。これは独白、ナレーション、会話、多発言者など多様なシナリオをカバーしています。

プロジェクトの最新情報とオープンソース計画

このプロジェクトは最近頻繁に更新されており、非常に高い完成度を示しています:

2026年1月から3月:中国語（CineDub-CN）と英語（CineDub-EN）のデータセットのサンプルとデモデモを順次公開しました。
2026年3月16日:正式に推論コードとモデルの重み（Checkpoints）をオープンソース化しました。開発者はGitHubから関連リソースを取得できます。
データセットの取得:現在、『紅楼夢』（中国語）と『ダウントン・アビー』（英語）を含む複数の古典的なドラマのデータセットのサンプルが研究用途のために公開されています。

技術実践：「会話」から「パフォーマンス」へ

公式に公開されたデモによると、このモデルは『三国志』などの古典的なドラマの再構築において驚くほど優れた結果を出しています。特定の「感情のヒント（Clue）」を入力することで、モデルは役割の恐怖から反逆への感情の変化を正確に捉え、高品質な音色のクローン作成と自然な口元の一致を実現します。

Fun-CineForgeの登場により、映画・テレビドラマのAI吹き替えは単なる「テキストから音声への変換」から、芸術的理解力を備えた「自動後処理生産」へと進化しました。これにより、字幕映画やドラマの後期制作コストを大幅に削減できることが期待されます。

プロジェクト：https://funcineforge.github.io/

通義が開発した初めての映画級声優モデル：AIは感情を込めて話すことをついに学んだ

アリババの通義ラボが、世界初の映画級・多シーン対応のマルチモーダルAI音声モデル「Fun-CineForge」をオープンソース化。感情表現、環境音融合、口型同期などの技術的課題を克服し、映像業界の音声制作の知能化を推進。....

Googleの動画編集プラットフォームVidsに新機能が全員に開放され、AI音声ナレーション、余分な会話の削除、AI画像編集などが含まれます

Googleの動画編集プラットフォーム「Vids」が全ユーザーにAI機能を無料開放。音声ナレーション、不要な口語の自動削除、画像編集などを提供。動画をアップロードするだけで、システムが自動的に冗長な内容を識別・簡素化します。....

MOSS-TTSDが衝撃的なオープンソース化：百万時間の訓練でAIパーソナリティの新王者を構築

清華大学がMOSS-TTSD音声対話生成モデルをオープンソース化。Qwen3-1.7B-baseで訓練、中英両対応の長音声生成可能。XY-Tokenizer技術で1kbps低ビットレートでも高音質を実現。音色クローンや音声制御機能を備え、MoonCastを上回る性能。960秒までの自然な音声生成が可能。APIやデモも公開、ポッドキャスト等に適用。今後は話者切り替えや感情表現の改善予定。....

Qwen-TTS新バージョンリリース中国語の3つの方言を新たにサポート

最近、Qwen-TTSと呼ばれる音声合成モデルには新たな進展があり、Qwen APIを通じて最新バージョンのアップデートが行われました。これにより、ユーザーはより豊かな音声合成体験を得られるようになりました。今回のアップデートでは、北京語、上海語、四川語の3つの中国語の方言に対応する機能が追加され、さらにそのアプリケーション範囲が広がりました。このモデルは300万時間以上の大規模な語料庫で訓練されており、合成された音声の自然さおよび表現力は人間レベルに達しています。Qwen-TTSは精度よく

アリババのFun-CineForge：映画レベルのマルチモーダル音声合成大モデルと大規模データセットが登場

コアな進展：映画吹き替えの「不自然さ」の問題を解決

プロジェクトの最新情報とオープンソース計画

技術実践：「会話」から「パフォーマンス」へ

関連推奨

通義が開発した初めての映画級声優モデル：AIは感情を込めて話すことをついに学んだ

アップル、PCG音声生成技術を発表：刻板的なチェックに終止符。AIボイスのスピードは40%向上

Googleの動画編集プラットフォームVidsに新機能が全員に開放され、AI音声ナレーション、余分な会話の削除、AI画像編集などが含まれます

MOSS-TTSDが衝撃的なオープンソース化：百万時間の訓練でAIパーソナリティの新王者を構築

Qwen-TTS新バージョンリリース中国語の3つの方言を新たにサポート

アリババのFun-CineForge：映画レベルのマルチモーダル音声合成大モデルと大規模データセットが登場

コアな進展：映画吹き替えの「不自然さ」の問題を解決

プロジェクトの最新情報とオープンソース計画

技術実践：「会話」から「パフォーマンス」へ

関連推奨

通義が開発した初めての映画級声優モデル：AIは感情を込めて話すことをついに学んだ

アップル、PCG音声生成技術を発表：刻板的なチェックに終止符。AIボイスのスピードは40%向上

Googleの動画編集プラットフォームVidsに新機能が全員に開放され、AI音声ナレーション、余分な会話の削除、AI画像編集などが含まれます

MOSS-TTSDが衝撃的なオープンソース化：百万時間の訓練でAIパーソナリティの新王者を構築

Qwen-TTS新バージョンリリース 中国語の3つの方言を新たにサポート

Qwen-TTS新バージョンリリース中国語の3つの方言を新たにサポート