記事本文

Meta、MoCha AIシステムを発表：同期音声と動作を持つキャラクターアニメーションを生成

公開AI二ュ-ス

時間 :Apr 2, 2025

読む :1分

Metaとウォータールー大学の研究チームが共同開発したMoChaという人工知能システムは、同期音声と自然な動作を含む完全なキャラクターアニメーションを生成できます。これは、顔のアニメーション生成モデルに焦点を当ててきた従来の方法とは異なり、MoChaは複数のカメラアングルから全身の動きをレンダリングし、唇の同期、ジェスチャー、複数のキャラクター間のインタラクションを網羅しています。

口パクの精度向上

MoChaのデモでは、クローズアップとミドルショットでの上半身の動きとジェスチャーの同期生成が重点的に示されています。「音声-ビデオウィンドウ注意」メカニズムの導入が、このシステムの独自性です。このメカニズムは、AIビデオ生成における長年の課題、すなわち、1. 音声のフル解像度をビデオ圧縮時に維持する方法、2. ビデオを並列生成する際に唇の動きと音声の不一致を避ける方法、の2つの主要な課題を解決することに成功しました。

MoChaの革新的な点は、各フレームが特定の音声データウィンドウへのアクセスを制限することで、人間の発音方法、つまり唇の動きが瞬時の音と密接に関連し、ボディランゲージはより広範なテキストパターンに基づいて表現されることを模倣していることです。各フレームの音声の前後にマーカーを追加することで、MoChaはよりスムーズなトランジションとより正確な口パクを実現できます。

MoChaは、テキストの説明に基づいて、顔、ジェスチャー、唇の動きを含むリアルなビデオを生成します。

このシステムを構築するために、研究チームは300時間もの厳選されたビデオコンテンツを使用し、テキストベースのビデオシーケンスを組み合わせて表現とインタラクションの可能性を拡大しました。特に複数キャラクターのシーンでは、MoChaはその強力な能力を発揮します。ユーザーは一度キャラクターを定義するだけで、「キャラクター1」や「キャラクター2」などのラベルを使って異なるシーンで簡単に呼び出すことができ、繰り返し記述する必要はありません。

複数キャラクターの管理

150種類の異なるシーンでのテストにおいて、MoChaは口パクの同期と自然な動作の品質において、同種のシステムを上回りました。独立した評価者たちは、このシステムが生成するビデオは非常にリアルで、これまでにない精度と自然さを示していると一致して評価しています。

研究者たちは、ユーザーが特定のキャラクターを参照する際に繰り返し記述する必要がないプロンプトテンプレートを開発しました。

MoChaの開発により、デジタルアシスタント、バーチャルアバター、広告、教育コンテンツなどの多くのアプリケーション分野で大きな可能性が開かれています。Metaはまだこのシステムをオープンソース化するかどうか、あるいはまだ研究段階のプロトタイプであるかどうかを明らかにしていませんが、この技術の登場は、AI駆動のビデオ生成に新たな章を開いたことは間違いありません。

人工知能ビデオ技術の競争が激化する中、MoChaの発表は特に注目に値します。Metaは最近MovieGenシステムも発表しており、TikTokの親会社であるバイトダンスも、INFP、OmniHuman-1、GokuなどのAIアニメーションツールを開発しており、ソーシャルメディア企業がこの分野に積極的に取り組んでいることを示しています。

Tinder、AIを活用した恋愛ゲームでユーザーの駆け引きスキルアップを支援！

競争の激しいオンラインデート市場において、Tinderは最近、ユーザーの恋愛スキル向上を目的とした、全く新しいAIインタラクティブゲームをリリースしました。「The Game Game」と名付けられたこのゲームは今週火曜日に正式にローンチされ、ユーザーはAIロボットとの対話を通して、恋愛テクニックの練習、初対面のシミュレーションを行い、パフォーマンスに応じてスコアとアドバイスを受け取ることができます。このゲームに参加するには、Tinderアプリケーションの左上隅にあるTinderロゴをクリックするだけです。ゲームはユーザーに—

Apr 2, 2025

82.4k

ElevenLabs、世界初の犬用AIテキストトゥースピーチモデル「Text To Bark」を発表

先日、人工知能オーディオ技術の先駆的な企業であるElevenLabsが、犬のために設計された世界初のAIテキストトゥースピーチモデル「Text To Bark」を発表し、テクノロジー業界とペット愛好家の注目を集めています。この革新的な技術は、人間の入力したテキストを非常にリアルな犬の鳴き声に変換できると謳っており、そのリアルさは、なんと95％の犬がAI生成の音声と本物の犬の鳴き声を区別できないほどだそうです。これは、人とペットのコミュニケーションを促進するための大胆な試みと見なされています。

Apr 2, 2025

76.8k

Meta人工知能研究担当副社長ジョエル・ピノが退社へ

Metaの人工知能研究担当副社長、ジョエル・ピノ（Joelle Pineau）氏は火曜日にFacebookを通じて、5月に会社を退社する予定であると発表しました。Meta内部の人工知能研究ラボ（FAIR）で2年以上勤務した同氏は、業界で高い評価を受けており、同社のAI分野におけるイノベーションと発展を指導してきました。ピノ氏の退社は、Metaが人工知能への投資を拡大している重要な時期に発生しています。同社は2025年までに最大650億ドルを投資する計画です。

Apr 2, 2025

95.4k

Meta、AIシステムMoChaを発表：テキストが生き生きとしたアニメキャラクターに、口パクと動きは自然で滑らか

Metaとウォータールー大学の研究者らが最近、テキストによる簡単な説明から、同期した音声と自然な動きのある全身アニメーションキャラクターを生成できる、MoChaという新しいAIシステムを発表しました。この革新的な技術は、コンテンツ制作の効率と表現力を大幅に向上させ、多くの分野で大きな可能性を秘めています。従来の方法を打ち破り、全身アニメーションと正確な口パクを同期させる、これまでのAIモデルが主に顔の表情に焦点を当てていたのに対し、MoChaは全身の自然な動きをレンダリングできる点がユニークです。

Apr 2, 2025

126.4k

英国シンクタンク、大西洋横断関係維持のためAI著作権規制緩和を提唱

先日、英国の元首相トニー・ブレアが設立したシンクタンク、トニー・ブレア研究所（TBI）は報告書を発表し、英国は人工知能(AI)企業に対する著作権規制を緩和すべきだと提案しました。報告書は、より厳格な著作権措置を継続すると、特に米国が英国製品への関税発動を間近に控えている状況下で、英米関係に圧力をかける可能性があると指摘しています。画像注記：画像はAIによって生成され、画像ライセンスサービスプロバイダーMidjourneyにより提供されています。シンクタンクは強調し、地の

Apr 2, 2025

56.2k

インテリジェントな未来、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご

Meta、MoCha AIシステムを発表：同期音声と動作を持つキャラクターアニメーションを生成

口パクの精度向上

複数キャラクターの管理

関連推奨

Tinder、AIを活用した恋愛ゲームでユーザーの駆け引きスキルアップを支援！

ElevenLabs、世界初の犬用AIテキストトゥースピーチモデル「Text To Bark」を発表

Meta人工知能研究担当副社長ジョエル・ピノが退社へ

Meta、AIシステムMoChaを発表：テキストが生き生きとしたアニメキャラクターに、口パクと動きは自然で滑らか

英国シンクタンク、大西洋横断関係維持のためAI著作権規制緩和を提唱