アリババ・テンユンラボは3月16日に、映画級のマルチシーン音声合成マルチモーダル大規模モデル「Fun-CineForge」を正式に公開し、オープンソース化しました。このモデルは、AI音声合成において長年存在した口元と音声の不一致、感情表現の欠如、複数のキャラクターの音声の不一致などの核心的な課題を解決することを目的としており、高品質なデータセット構築方法も同時に公開しています。

技術的な構造において、Fun-CineForgeは初めて「時間モード」という概念を導入しました。従来のモデルがテキストや視覚情報に注目するのとは異なり、このモデルは正確なタイムスタンプ制御を通じて、音声が正しい時間範囲内で合成されるようにします。画面の中で人物が隠されたり、カメラの切り替えが頻繁に行われたり、顔がぼかされているような複雑な映画シーンでも、モデルは非常に高い音声と画像の同期率と指示の遵守能力を実現できます。
補完的にオープンソース化された「CineDub」データセット構築プロセスも大きな特徴です。テンユンラボは大規模モデルの思考チェーン技術を利用して、元の映画素材を自動的に構造化されたデータに変換し、手動のラベリングコストを大幅に削減しました。データによると、このプロセスにより、中国語と英語の誤字率は約1%にまで低下し、話者分離の誤り率はわずか1.20%にとどまっています。これにより、大規模モデルには非常に競争力のある学習基盤が提供されました。

現在、Fun-CineForgeはGitHub、HuggingFaceおよび魔搭コミュニティで同時に公開されており、30秒以内のショートビデオのセグメントの推論をサポートしています。これは単人スピーチのシナリオでの優れたパフォーマンスだけでなく、二人以上対話のシナリオにおける専門的なサポートを最初に実現したことで、AI音声技術が基本的なカスタマーサービスやアシスタントのシナリオから、高水準のアニメや映画後編集の分野へと進化していることを示しています。
GitHub:https://github.com/FunAudioLLM/FunCineForge
HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
