アリババ・トンイー大規模モデルは、「バイレン」シリーズの音声モデルが大幅なアップグレードを実施し、正式にオープンソース化されたと発表しました。今回のアップデートにより、3秒の録音で最大9言語および18の方言へのシームレスな切り替えが可能となり、中国語、広東語、日本語、英語なども対応しています。また、喜びや怒りなどのさまざまな感情を模倣することも可能です。

このアップグレードでは、Fun-CosyVoice3モデルが著しく改善されました。初期パケット遅延は50%低下し、中英混合話の正確性も大幅に向上しました。さらに、モデルの音色クローン機能が強化され、ユーザーは3秒以上の録音を提供するだけで、その音色を再現し、新しい音声を合成できます。この機能の開発により、リアルタイムの音声アシスタント、ライブ字幕、アクセシビリティ読書などの場面がより効率的かつ使いやすくなりました。

image.png

Fun-ASRモデルの能力も向上し、騒音環境下での正確性は93%に達しています。このモデルは、歌詞やラップの認識にも対応しており、多言語の自由な混合話にも対応し、様々な中国語の地方言や口調をカバーしています。ユーザー体験を向上させるために、ストリーミング認識の最初の文字の遅延は160ミリ秒に短縮され、音声インタラクションのスムーズさが大幅に向上しました。

また、これらのモデルはローカル配備と二次開発をサポートしており、開発者は自分のニーズに合わせてカスタマイズすることが可能です。オープンソースのアドレスも公開されており、ユーザーは関連プラットフォームにアクセスしてこれらの音声モデルを体験し、使用することができます。これにより、音声技術がさまざまな分野でさらに活用されることが期待されます。

GitHub:https://github.com/FunAudioLLM/CosyVoice

重要なポイント:  

🌐 ** 多言語対応 **: 3秒の録音で9言語および18の方言への切り替えが可能。  

⚙️ ** 技術アップグレード **: 遅延が50%削減され、正確性が向上し、音声インタラクションがよりスムーズになります。  

📦 ** オープンソース開放 **: モデルはローカル配備および二次開発をサポートし、カスタマイズアプリケーションに適しています。