人工知能音声分野に強力な競合が登場し、スタートアップ企業のResemble AIは、「Chatterbox Turbo」というオープンソースのテキストから音声への変換モデルを正式にリリースしました。このモデルはElevenLabsやCartesiaなどの業界の大手企業を直接的に狙っています。

このモデルは性能において顕著な進歩を遂げており、わずか5秒間の参照音声で対象の声を正確に模倣し、わずか150ミリ秒で最初の音声セグメントを出力することができます。このような極めて低遅延の性能は、リアルタイムAIエージェント、自動カスタマーサポート、ダイナミックなゲームキャラクター、仮想アバターやSNSプラットフォームでのインタラクションなどに理想的な選択肢となっています。Resemble AIは、このモデルが既存の閉鎖型競合製品をすでに超えていると主張しており、開発者に対してより自然な合成体験を提供できるとしています。

セキュリティとコンプライアンスの面では、Chatterbox Turboは規制された業界向けに「PerTh」というニューラルウォーターマーク機能を内蔵しています。この機能は、AIによって生成された音声の身元を検証するのに使用され、ディープフェイクのリスクに対処するのに効果的です。さらに画期的なのは、Resemble AIがこのモデルをMITライセンスで公開したことです。これにより、世界中の開発者はHugging Face、RunPod、Modal、Replicate、Falなどのプラットフォームで無料で試用でき、GitHubで完全なコードを取得して商用的な修正や配布を行うことが可能になります。

現在、Resemble AIはホスティングサービスも同時に提供しており、近日中に遅延をさらに最適化したバージョンをリリースする予定です。これは、オープンソースエコシステムを通じて音声合成市場の競争構造を再構築することを目的としています。