Hume社は2025年5月29日に新たな音声言語モデル「EVI3」を正式に発表しました。この革新により、汎用的な音声知能の分野で大きな飛躍が起こりました。従来のテキストから音声への変換(TTS)モデルとは異なり、EVI3は任意の人間の音声を理解し生成するだけでなく、トーン、リズム、感情表現を正確に捉えることができるため、これまでにないほど豊かな音声表現力を示しています。
その先進的な音声から音声アーキテクチャのおかげで、低遅延を維持しつつ、最先端の大規模言語モデルと同等の知能レベルを持つEVI3は、ユーザーにさらに自然で効率的なインタラクション体験を提供します。
技術の主な特長: 低遅延と高表現力の両立
EVI3のユニークな点はその画期的な音声から音声技術です。従来のモデルが限られた事前定義された音声しか処理できなかったのに対し、EVI3はユーザーの入力したプロンプトに基づいて、任意のスタイルの音声を迅速に生成し、感情やトーンを正確に伝えられます。特定の人物の声を模倣したり、シナリオに応じてトーンを変えたりすることも可能で、非常に柔軟に対応できます。また、その低遅延の特性によりリアルタイム対話でのパフォーマンスが特に優れており、音声インタラクションの流動性と没入感を大幅に向上させます。

応用の展望: バーチャルアシスタントからクリエイティブな表現へ
EVI3の登場により、複数の分野に新たな可能性が広がっています。バーチャルアシスタント分野では、その非常に自然な音声生成能力がユーザー体験を大幅に向上させるでしょう。教育、エンターテインメント、コンテンツ制作においても、EVI3を使用することで、個別の音声コンテンツを作成することが可能です。例えば、ビデオに音声を吹き込んだり、多様なオーディオキャラクターを作成したりすることができます。さらに、EVI3の汎用的な音声知能特性により、異なる言語や文化間でも高い潜在力を発揮し、グローバルなユーザーに包括的な音声インタラクション体験を提供します。
業界の影響: 音声AIの新しい高みを目指して
専門家たちによると、EVI3の発表はHume社が音声AI分野でリーダーシップを確立したことを示すだけでなく、業界全体に新しい技術基準を設けたものです。その低遅延と高表現力の特性は、スマートデバイス、メタバース、自動化されたカスタマーサービスなどのシーンでの普及を加速させる可能性があります。しかし、これほどの強力な音声生成能力にはプライバシーと倫理に関する議論も引き起こしています。将来、技術革新と社会的責任のバランスをどう取っていくのかが、業界の注目すべきポイントになるでしょう。
公式ブログ: https://www.hume.ai/blog/introducing-evi-3
