最近、INFP(Interactive,Natural,Flash and Person-generic)という新しい技術が大きな注目を集めています。この技術は、現在のAIアバターが二人会話においてインタラクションが不足している問題を解決することを目指しており、仮想人物が会話中に、会話内容に応じて表情や動作をリアルタイムに調整できるようにします。

image.png

「漫才」から「デュエット」へ

従来のAIアバターは、一方的に話すだけの「漫才師」のようなものか、ただ黙って聞いているだけの「木偶」のようなものでした。しかし、人間の会話はそうではありません!私たちは話すとき、相手を見て、時折うなずいたり、眉をひそめたり、冗談を言ったりします。これが真のインタラクションです!

INFPの登場により、このぎこちない状況は一変します!まるで「デュエット」の指揮者のように、あなたとAIの会話の音声に基づいて、AIアバターの表情と動作を動的に調整し、まるで人間と会話しているかのような感覚を与えてくれます!

INFPの「秘訣」:2つの必殺技!

INFPがこれほどまでに優れているのは、主に2つの「秘訣」によるものです。

モーションベースの表情模倣(Motion-Based Head Imitation):

数多くのリアルな会話動画から人間の表情や動作を学習します。「モーション模倣の達人」のように、複雑な行動を「動作コード」に圧縮します。

動作をよりリアルにするために、目と口という「表情担当」に特に注目し、「クローズアップ」をかけたかのように詳細に処理します。

また、顔のキーポイントを使用して表情生成を補助し、動作の正確性と自然性を確保します。そして、これらの「動作コード」を静止画のアバターに適用することで、アバターは瞬時に「生き生き」とします。まるで魔法のようです!

音声ガイド付きモーションジェネレーター(Audio-Guided Motion Generation):

この「ジェネレーター」はさらに強力で、あなたとAIの会話の音声を理解します。「音で位置を特定する」達人のようです。

音声から誰が話していて誰が聞いているかを分析し、AIアバターの状態を動的に調整します。「話す」と「聞く」の間をシームレスに切り替え、手動での役割変更は不要です。

「話す」時と「聞く」時の様々な動作をそれぞれ保存する2つの「メモリ」を備えています。まるで2つの「宝箱」のように、最適な動作をいつでも取り出せます。

あなたの声のスタイルに合わせて、AIアバターの感情や態度を調整し、会話をより生き生きと面白くします。

最後に、「拡散モデル」と呼ばれる技術を使用して、これらの動作を滑らかで自然なアニメーションに変換し、ぎこちなさを感じさせません。

DyConv:ゴシップ満載の巨大な会話データセット!

この「スーパーAI」INFPを訓練するために、研究者たちは「DyConv」という超大規模な会話データセットを特別に収集しました!

このデータセットには、200時間以上の会話動画が含まれており、会話に参加する人々は世界中から集まり、会話の内容も多岐に渡り、まさに「ゴシップの宝庫」です。

DyConvデータセットの動画品質は非常に高く、全員の顔がはっきりと見えます。研究者たちは最先端の音声分離モデルを使用して、各人の声を個別に抽出することで、AIの学習を容易にしました。

INFPの「十八番」:会話だけじゃない!

INFPは二人会話だけでなく、他の場面でも活躍します。

「傾聴」モード(Listening Head Generation):相手の言葉に合わせて表情や動作を行い、「真剣に聞いている」模範的な生徒のようです。

「鸚鵡返し」モード(Talking Head Generation):音声に合わせてアバターがリアルな口の動きをします。「口技名人」のようです。

INFPの性能を実証するために、研究者たちは多くの実験を行いました。その結果、ビデオ品質、リップシンク、動作の多様性など、あらゆる指標において、INFPは他の同様の方法を凌駕し、非常に優れた成果を収めました。

ユーザーエクスペリエンスにおいても、参加者はINFPによって生成されたビデオがより自然で生き生きとしており、音声との整合性も高いと一致して評価しました。

研究者たちはまた、INFPの各モジュールが不可欠であることを証明するアブレーション実験も行いました。

プロジェクトアドレス:https://grisoon.github.io/INFP/