【AIbase ニュース】音声生成企業のFish Audioは、アップグレード版のS1ボイスクラウンモデルを正式にリリースしました。感情表現力と現実性において大きな進歩を遂げました。新バージョンのモデルは、感情、リズム、トーンの変化を備えた人間のような音声を生成でき、ほぼ完璧に人の話す際の微細な違いを再現できます。
このモデルについて説明すると、ユーザーが約10秒の音声サンプルを提供するだけで、S1は任意の声をクローンし、元の声の口語、トーン、リズムを完全に保持し、個人の話し方や感情的特徴を再現し、生成結果はほぼ本物の人間と区別がつかないほどです。国際的に有名な製品ElevenLabsと比較して、Fish Audioの音声クローンサービスの価格は約6倍安いため、音声生成のコストと性能のバランスにおいて明確な優位性があります。
一方で、Fish Audio S1APIも同時にリリースされ、リアルタイム音声生成体験を大幅に向上させました。その初フレーム遅延(TTFT)は500ミリ秒未満であり、一文は半秒未満で再生を開始できます。また、入力と出力のストリーミングをサポートし、テキストを受信しながら即座に読み上げる自然なインタラクションを実現し、異なる声を無制限にクローンし、自由に切り替えることが可能です。
業界関係者は、Fish Audio S1のアップグレードにより、音声クローン技術が「使える」段階から「感じられる」段階へと進んでいると見ています。高精度で低遅延の特性により、AI音声は仮想人物、スマートアシスタント、コンテンツ制作および吹き替えなどの分野で広く導入されることが加速されるでしょう。