記事本文

映画の声優がAI時代に入る：通義ラボがFun-CineForgeをオープンソース化し、多人数会話の課題を初めて解決

公開AI二ュ-ス

時間 :Mar 16, 2026

読む :1分

従来のAIナレーションは、映画やアニメなどの高水準なシーンにおいて、複雑な感情の爆発や正確な口元の一致を難しく感じることがあり、限界に直面することがあります。この問題に対応するために、通義ラボは、初めての映画レベルのマルチシナリオ対応のマルチモーダル大規模モデルである——Fun-CineForge——を正式にリリースし、オープンソース化しました。

「声と画像の不一致」の突破：4つの厳格な次元の協調

従来のモデルがテキストから音声への変換に依存しているのとは異なり、Fun-CineForge は映画制作における4つの核心的な課題を克服することを目指しています：

口元の同期: 合成された音声と画面の唇の動きの高い一致を実現します。
感情表現: 面貌と指示説明を組み合わせて、声に人間的な感情の深さを与えることができます。
音色の一貫性: 複雑な多人数会話の中で、特定人物の音色を安定させます。
時間の整合: 说话者が遮蔽されているか、画面上にいない場合でも、ミリ秒単位で正確なタイミングで音声を挿入できます。

コア技術：「時間モダリティ」と高品質データセットの導入

Fun-CineForge の技術的突破は、独自の 「データ＋モデル」一体化設計 です：

CineDub 高品質データセット: 通義ラボは CineDub 自動データセット構築プロセスを同時にオープンソース化しました。このプロセスはチェーン・オブ・トゥークエラー修正メカニズムを使用し、中英文のテキスト転記誤り率を約 1％〜2％ にまで低下させ、スピーカー分離誤り率を大幅に低下させました 1.2％ 。
4モダリティ統合アーキテクチャ: モデルは初めて 「時間モダリティ」 を導入し、視覚（口元の表情）、テキスト（台詞の感情）および音声（音色の参照）を一緒にモデリングします。これにより、顔が見えない複雑なシナリオでも、時間の監督目標に従って正確な同期を実現することができます。

優れた性能：多人数会話のナレーションの空白を埋める

実験データによると、Fun-CineForge は語彙誤り率（WER/CER）、唇部同期度（LSE-C/D）および音色類似度において、DeepDubber-V1などのベースラインモデルよりも顕著に優れています。特に注目すべきは、このモデルが最初に二人以上による会話シナリオの正確なサポートを実現したことです。30秒以内のビデオセグメントでは非常に高いロバスト性を示しています。

GitHub: https://github.com/FunAudioLLM/FunCineForge
HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope: https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/

テンセントがAIアプリ生成プラットフォーム「トゥース」をリリース：奇抜なアイデアをあなたのアプリに

テンセント社内で開発された「吐司（トースト）」アプリが5月15日にひっそりとリリースされました。このアプリは「アプリ生成とインスピレーション共創プラットフォーム」と位置付けられており、ユーザーが自然言語でアイデアを説明するだけで、AIが自動的に機能を分解し、プロトタイプを生成、さらにワンクリックでアプリにパッケージ化してスマートフォンにインストールできます。Android版はアプリ宝と公式サイトで先行公開され、iOS版は後日リリース予定です。....

May 18, 2026

148.0k

フィナンシャル・タイムズが認証：中国のビデオ生成AIがアメリカを先導！

バイトダンスのSeedance 2.0は、優れた生成品質と創作のしやすさで、米国企業を凌駕する世界トップの動画生成技術を実現。データの壁とエンジニアリング力による強固な競争優位性が、同社独自の技術蓄積に支えられている。これは中国AI企業が「動く」から「使いやすい」へと変革し、データ、アルゴリズム、シーンが連携してイノベーションを推進することを示している。....

May 18, 2026

127.4k

ChatGPTに個人財務ツールが登場：1.2万以上の金融機関と接続 OpenAIが正式に資金管理分野に参入

OpenAIはChatGPT Proユーザー向けに個人財務ツールをリリースし、Plaidを通じて1万2000を超える金融機関に接続できる。消費分析、投資ポートフォリオ、サブスクリプションの管理および財務計画をサポートする。この動きは、AIが汎用的な能力から垂直な金融分野への深掘りへと進化し、高価値かつ高い感度を持つ意思決定シーンに進出するものである。

May 18, 2026

87.1k

動画生成の新興勢力：Runwayがシリコンバレーの常識を打ち破りグーグルに挑む

Runway社は、NYU映画芸術学部出身の3人の創業者による独自の背景を持つ革新的な動画生成技術で急速に成長。次世代AIはテキストデータを超え、動画と世界モデルに重点を置くという核心理念で、シリコンバレーの大手に挑戦している。....

May 18, 2026

120.8k

AIが6か月間を主導した: クロードがストライキ、Grokがコードを爆発的に書く。ただGPTだけが真面目に働いていた

人工知能スタートアップのAndon Labsは、6か月間にわたる実験を行い、Claude、GPT、Gemini、Grokという4つのAIモデルに同じ初期条件のもとでネットラジオを自主運営させました。同じプロンプト、20ドルの予算、完全なコントロール権が与えられました。その結果、誰も介入しなくなった後、各モデルはまったく異なる極端な行動を示し、混乱から効率的なものまで、AIが自主的に動作する際の予測不可能性を浮き彫りにしました。

May 18, 2026

132.1k

インテリジェントな未来、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご

映画の声優がAI時代に入る：通義ラボがFun-CineForgeをオープンソース化し、多人数会話の課題を初めて解決

「声と画像の不一致」の突破：4つの厳格な次元の協調

コア技術：「時間モダリティ」と高品質データセットの導入

優れた性能：多人数会話のナレーションの空白を埋める

関連推奨

テンセントがAIアプリ生成プラットフォーム「トゥース」をリリース：奇抜なアイデアをあなたのアプリに

フィナンシャル・タイムズが認証：中国のビデオ生成AIがアメリカを先導！

ChatGPTに個人財務ツールが登場：1.2万以上の金融機関と接続 OpenAIが正式に資金管理分野に参入

動画生成の新興勢力：Runwayがシリコンバレーの常識を打ち破りグーグルに挑む

AIが6か月間を主導した: クロードがストライキ、Grokがコードを爆発的に書く。ただGPTだけが真面目に働いていた