ナビダの研究チームは、近日、PersonaPlex-7B-v1という双方向音声対話モデルを正式に公開しました。このモデルは従来のAI音声アシスタントが「一つ聞こえるごとに一つ答える」という単調なスタイルを完全に打ち破り、より人間らしい自然な会話体験を目指しています。

image.png

これまでASR(音声からテキストへの変換)、LLM(大規模言語モデル)、TTS(テキストから音声への変換)といった複数のステップをつなげて処理していた構造とは異なり、PersonaPlexは単一のTransformerアーキテクチャを採用し、音声の理解と生成を一貫して行います。AIbaseによると、このような「エンド・ツー・エンド」の設計により、応答遅延が大幅に低下し、AIは自然な中断や音声の重なり、即時のフィードバックに対処できるようになりました。簡単に言えば、まるで人と会話するように、AIが話している間も継続的に聞くことができ、ユーザーが突然会話を中断しても迅速に反応できます。

さらに、このモデルは個別化制御において優れた性能を発揮します。「音声+テキスト」の二重の誘導により、ユーザーはAIの役割背景を定義するだけでなく、その声色やトーンを正確に制御することができます。AIbaseが入手した情報によると、ナビダは膨大な実際の通話データと合成されたシナリオを組み合わせてトレーニングを行い、モデルは自然な言語習慣を持ちながら特定の業界の業務ルールを厳密に守る能力を備えています。現在の評価結果によれば、PersonaPlex-7B-v1は会話の滑らかさとタスク達成率において、多くのオープンソースおよびクローズドソースシステムよりも優れています。

研究:https://research.nvidia.com/labs/adlr/personaplex/

ポイント:

  • 🎙️ 双方向インタラクション:PersonaPlex-7B-v1はリアルタイムの音声ストリーム処理をサポートしており、AIが話している間にいつでもユーザーが割り込みや重なる会話を可能にし、急速な応答を実現します。

  • 🧠 単一モデルアーキテクチャ:面倒なプラグイン式のパイプラインを廃止し、単一のTransformer構造を採用し、テキストと音声のトークンを同時に予測することで、根本的な会話の自然さを向上させます。

  • 🎭 深い個別化:最大200トークンのシステムプロンプトおよび特定の音声埋め込みをサポートし、AIの役割性質、業務知識、感情的な声色を柔軟にカスタマイズできます。