アリババ・トングイが『Fun-CineForge』を発表：オープンソースの映画レベルのボーカルモデルで音声と画像の同期問題を解決

アリババ・テンユンラボは3月16日に、映画級のマルチシーン音声合成マルチモーダル大規模モデル「Fun-CineForge」を正式に公開し、オープンソース化しました。このモデルは、AI音声合成において長年存在した口元と音声の不一致、感情表現の欠如、複数のキャラクターの音声の不一致などの核心的な課題を解決することを目的としており、高品質なデータセット構築方法も同時に公開しています。

技術的な構造において、Fun-CineForgeは初めて「時間モード」という概念を導入しました。従来のモデルがテキストや視覚情報に注目するのとは異なり、このモデルは正確なタイムスタンプ制御を通じて、音声が正しい時間範囲内で合成されるようにします。画面の中で人物が隠されたり、カメラの切り替えが頻繁に行われたり、顔がぼかされているような複雑な映画シーンでも、モデルは非常に高い音声と画像の同期率と指示の遵守能力を実現できます。

補完的にオープンソース化された「CineDub」データセット構築プロセスも大きな特徴です。テンユンラボは大規模モデルの思考チェーン技術を利用して、元の映画素材を自動的に構造化されたデータに変換し、手動のラベリングコストを大幅に削減しました。データによると、このプロセスにより、中国語と英語の誤字率は約1%にまで低下し、話者分離の誤り率はわずか1.20%にとどまっています。これにより、大規模モデルには非常に競争力のある学習基盤が提供されました。

現在、Fun-CineForgeはGitHub、HuggingFaceおよび魔搭コミュニティで同時に公開されており、30秒以内のショートビデオのセグメントの推論をサポートしています。これは単人スピーチのシナリオでの優れたパフォーマンスだけでなく、二人以上対話のシナリオにおける専門的なサポートを最初に実現したことで、AI音声技術が基本的なカスタマーサービスやアシスタントのシナリオから、高水準のアニメや映画後編集の分野へと進化していることを示しています。

GitHub:https://github.com/FunAudioLLM/FunCineForge
HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge

ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/

DeepSeek Codeが近日ローンチ予定

DeepSeek社の資金調達が700億元を突破し、経営陣は今後短期的な商業化ではなく、画期的なAI研究に注力すると発表しました。戦略転換により、特に注目されているDeepSeek Codeの開発に全力を挙げており、求人サイトに「Agent Harness」などの関連ポジションが掲載されています。

OpenAIがChatGPT for PowerPointをリリース：1文でPPTを作成し、バグを自動検出

OpenAIは5月22日にChatGPT for PowerPointプラグイン（ベータ版）を発表しました。このプラグインはAIをPowerPointの下部構造に統合し、誰でも無料で簡単に利用できるようにします。ユーザーは有料不要で、スライド作成においてAIの支援を得ることができ、従来のPPT作成の面倒なプロセスを終わらせます。

チューリングテストの結果が明らかに：GPT-4.5の勝率は人間を上回り、AIは完璧な嘘をつくことを学んだ

イギリスの数学者チューリングが1950年に提唱したチューリングテストの想定は、76年後、カリフォルニア大学サンディエゴ校の研究チームによって『米国科学アカデミー紀要』に掲載された論文で実証された。認知科学者であるカメロン・ジョーンズ教授とベン・バーゲン教授は、厳密な古典的な三人称チューリングテストを通じて、初めて明確な実証データを提供し、コンピューターサイエンス史における画期的な瞬間を意味している。

アリババ・トングイが『Fun-CineForge』を発表：オープンソースの映画レベルのボーカルモデルで音声と画像の同期問題を解決

関連推奨

DeepSeek Codeが近日ローンチ予定

OpenAIがChatGPT for PowerPointをリリース：1文でPPTを作成し、バグを自動検出

マスクとザッカーバーグが一緒に遊んで説得した！トランプ大統領が米国AI規制命令を急きょ停止した裏事情が暴露

チューリングテストの結果が明らかに：GPT-4.5の勝率は人間を上回り、AIは完璧な嘘をつくことを学んだ

智譜がGLM-5.1高速版を発表：400 tokens/sで世界最大のAPI限界を記録