最近、研究者たちはLPM1.0モデルを正式に公開しました。この研究プロジェクトは、1枚の参照画像を用いて、話す、聞く、歌うなどの行動を含む人物ビデオをリアルタイムで生成することを目的としています。LPM1.0の中心的な突破点は、マルチモーダル処理能力であり、テキスト、音声、画像入力を同時に統合し、正確な口元の同期、繊細な顔の表情、自然な感情の移行を備えた動的な映像を生成できます。このモデルは、ChatGPTやドウバオなどの主要な音声AIに直接接続でき、従来の音声対話を視覚的フィードバックを持つリアルタイムインタラクションにアップグレードします。

技術面では、LPM1.0は「多粒度アイデンティティ条件付き」技術を導入しました。複数の角度と表情を持つ参照素材から詳細を抽出し、歯やシワや横顔の輪郭など複雑な特徴をモデル自身が生成する必要がなくなり、跨スタイル処理能力が大幅に向上しました。写実的な人間の顔、アニメ、3Dゲームキャラクターなど、あらゆる種類の画像に対して、二次トレーニングなしで即時の駆動が可能です。また、このモデルはストリーミング伝送技術をサポートしており、45分以上のビデオ生成においてもシステムの安定性を維持できます。

インタラクティブな論理において、LPM1.0は3つの会話状態を正確に認識できます。聞くときはうなずきや視線のずれなどの反応的な表情を生成し、話すときは音声によって体と口の動きを駆動し、止まっているときはテキスト指令に基づいて自然な暇つぶしの行動を生成します。プロジェクトマネージャーのZeng Ailing氏は、LPM1.0はリアルタイム会話だけでなく、オフライン音声駆動のビデオ生成にも対応していると述べました。これはポッドキャストや映画制作に技術的な冗長性を提供しています。

強力な応用可能性を示したものの、開発チームはLPM1.0が現在は研究プロジェクトであり、公開コードや重みの計画はまだないと強調しています。研究者は、生成されたビデオと本物の映像との間に一定の質的なギャップが存在し、技術自体に潜在するディープフェイク(Deepfake)のリスクも無視できませんと認めています。この研究の意義は、今後のAIシステムの進化方向を明確にしたことにあります。それは、単一の論理的なインタラクションから、感情への応答、目と目での交流、視覚的な身体化を備えた全次元的なインタラクションへの転換です。