音声合成技術が急速に発展する中、面壁インテリジェンスと清华大学深圳国際研究院人機音声インタラクションラボ(THUHCSI)は最近、新しい音声生成モデル「VoxCPM」を共同でリリースしました。このモデルは0.5Bのパラメータサイズを持ち、ユーザーに高品質で自然な音声合成体験を提供することを目的としています。
VoxCPMの登場は、高精度な音声生成分野における新たな重要な進歩を示しています。このモデルは、自然さ、声の類似度、リズム表現などの主要指標において業界の先端レベルに達しています。ゼロサンプルの音声クローン技術により、VoxCPMはわずかなデータでユーザー独自の声を生成し、パーソナライズされた音声合成を実現できます。この技術の進歩により、音声生成の応用シーンにはより多くの可能性が生まれました。特に、パーソナライズされた音声アシスタントやキャラクターの吹き替えなどにおいて。

今回の発表によると、VoxCPMはGitHubやHugging Faceなどのプラットフォームでオープンソース化されており、開発者向けにオンライン体験プラットフォームも提供されています。これにより、ユーザーがその強力な機能を探索・利用しやすくなっています。また、権威ある音声合成評価リストSeed-TTS-EVALにおいて優れた成績を収め、特に単語誤り率および声の類似度において極めて低い誤り率を達成し、その優れた推論効率を示しています。NVIDIA RTX4090のグラフィックカードで、VoxCPMのリアルタイム係数(RTF)は約0.17に達しており、高品質なリアルタイムインタラクションの要件を満たしています。
VoxCPMは技術的な性能だけでなく、音質や感情表現においても優れています。モデルはテキストの内容に応じて適切な声、トーン、リズムを選択し、人間と同等の聴覚体験を模倣することができます。気象予報、英雄の演説、あるいは方言のホストなど、あらゆるシナリオにおいて正確に再現し、没入感のある聴覚体験を提供します。
さらに、VoxCPMの技術構造は最新の拡散自己回帰型音声生成モデルに基づいており、階層的な言語モデリングと局所的な拡散生成の連続的表現を統合することで、生成音声の表現力と自然さが大幅に向上しています。このモデルのコアアーキテクチャには複数のモジュールがあり、協調して動作し、「意味 - 音響」生成プロセスを効率的に実現しています。
🔗 Github:
https://github.com/OpenBMB/VoxCPM/
🔗 Hugging Face:
https://huggingface.co/openbmb/VoxCPM-0.5B
🔗 ModelScope:
https://modelscope.cn/models/OpenBMB/VoxCPM-0.5B
🔗 PlayGround体験:
https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo
🔗 音声サンプルページのアドレス:
https://openbmb.github.io/VoxCPM-demopage
