この度、Oute AIは、OuteTTS-0.1-350Mと呼ばれる革新的なテキスト音声変換手法を発表しました。この手法は純粋な言語モデルを利用し、外部アダプターや複雑なアーキテクチャを必要とせず、簡素化されたTTS手法を提供します。OuteTTS-0.1-350MはLLaMaアーキテクチャに基づいており、WavTokenizerを使用して直接音声トークンを生成することで、より効率的な処理を実現しています。

このモデルはゼロショット音声クローン機能を備えており、数秒間の参照音声だけで新しい音声を複製できます。OuteTTS-0.1-350Mはデバイスのパフォーマンスを考慮して設計されており、llama.cppと互換性があるため、リアルタイムアプリケーションに最適です。パラメーター規模は比較的少ない(3.5億個)ものの、その性能は、より大きく複雑なTTSシステムに匹敵します。

OuteTTS-0.1-350Mのアクセシビリティと効率性により、パーソナルアシスタント、オーディオブック、コンテンツのローカリゼーションなど、幅広い用途に適しています。Oute AIはCC-BYライセンスの下で公開しており、さらなる実験やさまざまなプロジェクトへの統合を奨励し、高度なTTS技術の民主化を目指しています。

QQ20241106-112430.png

OuteTTS-0.1-350Mの発表は、テキスト音声変換技術における重要な一歩を意味します。簡素化されたアーキテクチャを利用することで、最小限の計算リソースで高品質の音声合成を実現しています。LLaMaアーキテクチャとWavTokenizerを統合し、複雑なアダプターを必要とせずにゼロショット音声クローンを実行できる点が、従来のTTSモデルとの違いです。

アドレス:https://www.outeai.com/blog/OuteTTS-0.1-350M