浙江大学とアリババが共同で新しく音声駆動型モデル「OmniAvatar」を発表し、デジタル人間技術の新たな高みを示しています。このモデルは音声を駆動として、自然で滑らかな全身のデジタル人間の映像を生成でき、特に歌うシーンにおいて優れた性能を発揮します。口元と音声の唇形が正確に同期し、非常に現実的な効果を実現しています。
OmniAvatarはテキストの指示を使って生成の詳細を細かく制御でき、ユーザーは人物の動作の幅、背景環境、感情表現などをカスタマイズすることが可能です。高い柔軟性を備えています。また、このモデルは仮想人物と物体とのインタラクションを生成するビデオを作成できるため、EC広告やマーケティング広告などのビジネスシーンにおいて広範な応用可能性を持っています。例えば、ブランドはOmniAvatarを使用してダイナミックな広告を作成し、消費者のインタラクティブな体験を向上させることができます。
オープンソースプロジェクトとして、OmniAvatarはGitHub上で公開され、世界中の開発者の注目を集めています。顔の表情、上半身および全身のアニメーション生成における優れた性能により、既存の同種モデルを上回っています。このモデルは多様なシナリオでの応用が可能であり、パーソナルキャスト番組、人間関係の対話、ダイナミックなパフォーマンスなどにも対応しており、コンテンツ制作分野における大きなポテンシャルを示しています。
業界の専門家は、OmniAvatarのリリースは音声駆動型デジタル人間技術の現実性とコントロール性を向上させただけでなく、AIがマーケティング、教育、エンターテインメントなどの分野での革新的応用を推進したと述べています。今後、浙江大学とアリババはさらに協力を深め、マルチモーダルAIのさらなる可能性を探求していく予定です。