人工知能音声分野に大きなブレークスルー!Hume AIは最近、OCTAVEという新しいテキスト音声エンジンを発表しました。このエンジンは、簡単なテキストの説明や5秒の音声録音だけで、リアルな音声と人格特性を生成または複製することができ、仮想キャラクターと人間とのインタラクションに無限の可能性をもたらします。

OCTAVEの強みは、自然な音声の生成だけでなく、話者の性別、年齢、アクセント、感情的なトーン、職業特有の話し方などを正確に模倣できる点にあります。これにより、高度にパーソナライズされた仮想キャラクターを作成し、ユーザーによりリアルな人間と機械のインタラクション体験を提供できます。

さらに驚くべきことに、OCTAVEはミリ秒単位で音声生成を完了し、真のリアルタイム会話を実現しています。また、ユーザーは生成されたコンテンツをリアルタイムで動的に調整することもできます。つまり、ユーザーは仮想キャラクターとスムーズで自然なリアルタイム会話をし、必要に応じて話し方や内容をいつでも変更できます。

OCTAVEは、Hume AI独自開発のEVI2モデルと、OpenAIの音声エンジン、ElevenlabのTTS音声設計、Google DeepmindのNotebookLMなどの複数のシステムの長所を組み合わせているため、音声生成と理解において優れた性能を発揮します。

OCTAVEは複数の仮想キャラクターの音声生成をサポートしており、各キャラクターは完全に異なる音声スタイル、感情、アクセントを持つことができ、ポッドキャストコンテンツ全体を生成することもできます。これにより、コンテンツ制作者は多様なオーディオコンテンツを簡単に作成できます。

さらに、OCTAVEは怒り、興奮、悲しみ、平静など、多様な感情の音声を生成できます。微妙な音声の変化を捉え、異なる感情的なトーンで自然なインタラクション感を高め、複雑な感情をより適切に表現します。テキストのセマンティクスを理解した上で、OCTAVEが生成する音声は、現在の主流言語モデル(GPTシリーズなど)の言語理解能力と同等であり、生成された音声コンテンツの正確さと文脈の一貫性を保証します。

公式サイト:https://www.hume.ai/blog/introducing-octave