AIリップシンクプロジェクトEchoMimic：音声と人物写真から生き生きとしたリップシンク動画を生成

AIbase

AIニュースで公開 · 1 分読む · Jul 21, 2025

AIによる口パク動画生成分野において、アリババグループおよび関連研究チームは、以前のアリババのEmo技術に類似した新たな技術「EchoMimic」を発表しました。音声と人物写真を入力するだけで、音声内容に合わせて自然な口パク動画を生成できます。

製品ページ：https://top.aibase.com/tool/echomimic

EchoMimic技術は、従来の音声駆動型や顔面キーポイント駆動型手法の限界を克服し、よりリアルでダイナミックな人物画像生成を実現する革新的な手法を採用しています。

従来の手法は、音声信号が弱い場合や顔面キーポイント情報のコントロールが過剰な場合、不安定で不自然な結果になりがちでした。EchoMimicは音声と顔面特徴を同時に活用し、斬新な学習戦略を採用することでこれらの課題を克服しています。この手法は、音声または顔面特徴のみで人物動画を生成できるだけでなく、両者を組み合わせることで、より繊細でリアルなアニメーション効果を生み出します。

EchoMimic技術の中核は、音声信号と顔面特徴間の関連性を正確に捉え、それを基にアニメーションを生成する点にあります。学習過程において、EchoMimicは高度なデータ融合技術を採用し、音声と顔面特徴の効果的な統合を確保することで、アニメーションの安定性と自然さを向上させています。下記にEchoMimic公式が公開しているいくつかのサンプルをご覧ください。

日本語と英語の口パク効果：

歌唱効果：

さらに、EchoMimicは音声と顔面特徴を個別に生成できるだけでなく、音声と選択した顔面特徴の組み合わせで人物動画を生成することも可能です。指定した表情参考動画（ランドマーク）を使用して、キャラクターの表情を制御することもできます。音声と特定の顔面領域を制御した表情の例を以下に示します。

複数の公開データセットと独自収集データセットにおける代替アルゴリズムとの包括的な比較により、EchoMimicは定量的および定性的評価において優れた性能を示しました。これは、EchoMimicプロジェクトページの視覚化効果にも十分に反映されています。

技術の進歩と応用が進むにつれて、EchoMimicは将来の人物アニメーション分野でより大きな役割を果たすと期待されています。

重要なポイント：
🎙️ **音声と顔面特徴の融合**: EchoMimicは音声信号と顔面キーポイント情報を組み合わせることで、よりリアルな人物アニメーションを生成します。
🔧 **斬新な学習戦略**: この技術は革新的な学習方法を採用し、アニメーションの安定性と自然さを向上させています。
🏆 **優れた性能**: 複数のデータセットにおける代替アルゴリズムとの比較において、EchoMimicは定量的および定性的評価で優れた性能を示しました。

OpenAIがAGI評価基準を初公開：ChatGPTはレベル1に留まる

ブルームバーグによると、OpenAIは、自社の大規模言語モデルの汎用人工知能（AGI）における進捗状況を追跡するための内部指標を作成しました。この取り組みは、OpenAIのAGI分野における野心を示すだけでなく、AI開発の新たな評価基準も業界に提供します。

新たなTransformer高速化技術FlashAttention-3発表　コストが大幅に削減

新たなTransformer高速化技術FlashAttention-3を発表。大規模言語モデルの推論速度を大幅に向上させ、運用コストを削減します。以前のバージョンと比較して、GPU利用率が大幅に向上し、トレーニングと実行速度が1.5～2倍向上しました。低精度数値（FP8）を採用することで、高い精度を維持しながらコストを大幅に削減します。長いテキストの処理能力が大幅に向上し、メモリ消費とシーケンス長の関係が大幅に最適化され、特に大規模データセットと長いシーケンスとの互換性が向上しました。技術的なハイライトには、高度なアルゴリズムが含まれます。

Heygenが口パクツールを発表写真と音声で話す、歌う

AIによる写真「蘇生術」Heygenが写真口パクツールを発表しました。ユーザーは写真と音声ファイルを提供すると、写真の人物が音声の内容に合わせて話す、歌う、朗読する動画を作成できます。最大20秒の音声に対応し、主要な音声の認識と同期化が可能です。ただし、現在中国地域ではサービス提供が制限されているため、ユーザーエクスペリエンスに影響が出ています。Heygenは現地で注目を集めており、今年6月には5億ドルの評価額で6000万ドルの資金調達を行い、Benchmarkなどの著名な投資家から出資を受けています。また、新たなサービスも導入しています。

サムスン Galaxy AI、子どものための「数学指導」新モードを発表 - 解答テクニックも伝授

サムスン電子は、昨日のUnpackedイベントで新世代折りたたみスマホGalaxy Z Fold6とGalaxy Z Flip6を発表しただけでなく、Galaxy AIの大きな進歩も発表しました。同社は、年末までにGalaxy AI対応デバイスが2億台に達すると発表し、AI分野におけるサムスンの野心を示しました。

大規模言語モデルの推論能力は過大評価されている：未知の状況下における大きな弱点

マサチューセッツ工科大学（MIT）の研究チームは最近、大規模言語モデル（LLM）の様々なタスクにおける性能について詳細な調査を行いました。その結果、LLMは慣れたタスクでは良好な性能を示すものの、非典型的または未知の状況下では推論能力に深刻な限界があることが明らかになりました。「デフォルトタスク」と「反事実シナリオ」を比較し、タスク設計を調整してモデルの反応をテストした結果、モデルは10進数の算術演算では非常に優れていますが、非10進数の環境や、音楽、空間推論、チェスなどの他のタスクでは全く異なる性能を示すことがわかりました。

マイクロソフトの画期的アップデート：EdgeブラウザでSVG形式のシームレスなコピー＆ペーストを実現

マイクロソフトは本日、Microsoft Edgeおよびその他のChromiumベースのブラウザが、Async Clipboard APIを通じてSVG（Scalable Vector Graphics）ファイルのコピー＆ペースト機能をサポートすることを発表しました。この画期的な進歩により、ユーザーエクスペリエンスとWeb開発効率が大幅に向上します。