最近、Hume AIは第3世代の音声インタラクションモデルであるEVI3を正式に発表しました。この新しい音声AIは卓越した感情理解能力とパーソナライズされたインタラクション体験により、業界から大きな注目を集めています。EVI3はユーザーの音声に含まれる感情を正確に識別し、さらにユーザーの好みに基づいて特定のスタイルや個性を持つ音声を生成できるため、音声AIの感情インタラクションと自然なコミュニケーションの分野で大きな進展を遂げました。以下では、AIbaseがEVI3に関する最新情報を詳しくお届けします。

image.png

体験サイト:https://demo.hume.ai/

EVI3: 感情知能と音声インタラクションの完璧な融合

EVI3は、Hume AIがマルチモーダルデータセットに基づいて開発した第3世代の音声言語モデルです。音声の変換、推論、音声合成など、複数の機能を一体化しています。前世代モデルと比べて、EVI3は感情理解、音声表現の自然さ、パーソナライズ化の面で質的な飛躍を遂げています。公式によると、このモデルはユーザーが簡単なテキストプロンプトを入力するだけで、わずか1秒以内に新しい音声やキャラクター設定を生成でき、複雑な30以上の音声スタイルに対応し、AIに独自の「性格」や「感情」を与えることができます。

たとえば、ユーザーは「古風な喜劇俳優」や「賢い魔法使い」といった多様なキャラクターの音声を作成できます。EVI3は指定されたスタイルを正確に模倣するだけでなく、対話の状況に応じてトーンや表現方法を動的に調整します。この高度なパーソナライズされたインタラクション体験により、EVI3はカスタマーサービス、仮想アシスタント、コンテンツ制作などのシーンで大きな可能性を示しています。

超低遅延とスマートな反応: 技術性能が全面的にリード

EVI3の推論遅延はわずか300ミリ秒であり、OpenAIのGPT-4oよりも大幅に優れており、新興技術のSesameに接近し、GoogleのGeminiよりもはるかに高性能です。1,720人の参加者が参加した盲測において、EVI3は感情表現、自然さ、音声品質、応答速度、割り込み処理などの7つの評価項目でGPT-4oを上回り、その性能の優位性を示しました。

さらに驚くべきことに、EVI3は会話中にリアルタイムで検索、推論を行い、インテリジェントな回答を提供できます。たとえば、ユーザーがAIと話す際に、EVI3はユーザーの音声を「聴きながら」外部ツールを使用して情報を探し、会話の中で答えをスムーズに組み込むことができます。このエンドツーエンドの音声処理能力により、EVI3は現在の音声AI分野の基準となっています。

感情認識: 人間をより理解する

EVI3のもう一つの注目すべきポイントはその強力な感情認識能力です。ユーザーの音声のトーン、リズム、音色を分析することで、EVI3はユーザーの感情状態を正確にキャッチし、それに応じて自身の返答トーンを調整します。これにより、より自然で共感のある人機間インタラクション体験が実現されます。従来の音声アシスタントと比較して、EVI3は感情表現の細部においてさらに洗練されており、「umm」などの自然な口語習慣もシミュレートすることができます。

Hume AIによると、EVI3は強化学習技術を使用してピッチ、話速、感情スタイルを最適化し、10万以上の音声サンプルでトレーニングされました。このユニークなマルチモーダルトレーニング方法により、EVI3は大量のデータから人間の音声の微妙な特徴を抽出し、よりリアルで感動的な音声表現を生成することができます。

多様なシナリオ適用: カスタマーからコンテンツクリエイターまで無限の可能性

EVI3は現在、Hume AIのiOSアプリとオンラインデモプラットフォームを通じてユーザーに公開されており、近々APIインターフェースも提供され、開発者がさまざまなアプリケーションに統合できるようになります。カスタマーサービス、ヘルスケアコーチ、没入型物語の叙述、仮想パートナーなど、どの分野でもEVI3は高度なパーソナライズされた感情豊かなインタラクション体験を提供できます。

たとえば、カスタマーサービスの場面では、EVI3はユーザーの感情状態に応じてトーンを調整し、より心温まる返答を提供します。コンテンツ制作の分野では、クリエイターはEVI3を利用してカスタマイズされたオーディオブックやゲームキャラクターのボイスを生成し、創造力を大幅に広げることができます。Hume AIはさらにEVI3の多言語能力を改善し、フランス語、ドイツ語、イタリア語、スペイン語などの言語にも対応し、グローバル市場での展開を進めます。

Hume AIのビジョン: 感情によってAIの未来を牽引

Hume AIは、元DeepMindの研究員であるAlan Cowenが2021年に設立した会社で、人類の感情と幸福を核としたAI技術の開発を目指しています。EVI3の発表はHume AIがそのビジョンを達成する重要なステップです。公式では、2025年末までに完全にパーソナライズされた音声AI体験を提供し、音声インタラクションが人間とAIとの主なコミュニケーション手段になることを目標としています。

OpenAIやAnthropicなどの大手企業が汎用的な知能の向上に焦点を当てているのに対し、Hume AIは音声AIのリアルさと感情共鳴に重点を置いています。EVI3は自然言語カスタマイズツールを搭載しており、複雑な技術知識なしにユーザーが専属のAI音声を作成できるため、このユーザーフレンドリーな設計により音声AIの普及と活用が促進されるでしょう。

EVI3の発表は音声AI分野に新たな活力を注入しました。感情認識、低遅延応答、パーソナライズ化の面での革新は、既存の音声AIモデルの性能限界に挑戦し、将来のAIインタラクションの方向性を示しました。AIbaseは、EVI3の登場が音声AIが機械的な音声アシスタントから本当に「あなたを理解する」知能なパートナーへと進化するための一歩であると評価しています。