マイクロソフトは最近、前線の音声AIモデルのシリーズであるVibeVoiceをオープンソース化しました。このプロジェクトには、自動音声認識(ASR)やテキストから音声への変換(TTS)など、多様な機能が含まれています。このプロジェクトは、長時間の音声処理、複数人の話者の自然な会話を生成する能力、およびリアルタイムでの低遅延の特徴により、開発者コミュニティで注目を集めました。現在、GitHubで約27Kのスターを獲得しています。

オープンソース研究フレームワークとしてのVibeVoiceは、MITライセンスに基づいており、クラウドサブスクリプション料金なしにローカルでデプロイ可能です。これは、音声合成分野での協働と革新を促進することを目的としています。モデルシリーズには3つの主要なメンバーがあり、それぞれ異なる側面をカバーし、従来の音声AIにおける長系列処理、話者一貫性、自然な流れなどの課題を解決します。

image.png

VibeVoice-ASR-7B: 60分間の構造化された音声からテキストへの変換ツール

VibeVoice-ASR-7Bは、一度に60分間の音声ファイルを処理できる統合型音声からテキストへの変換モデルです。出力結果は、「誰が話しているか」(話者識別)、「いつ話しているか」(正確なタイムスタンプ)、そして「何を話しているか」(詳細な内容)を含み、カスタムホットワード機能もサポートしており、固有名詞や技術用語の認識精度を向上させます。このモデルは50種類以上の言語をサポートし、長編の会議記録やポッドキャストのトランスクリプションなどの複雑なシナリオに適しています。

コミュニティの開発者は、このモデルを基に実用的なツールを開発しており、たとえばmacOSとWindowsプラットフォームに対応したVibing

VibeVoice-TTS-1.5B: 90分間の複数話者の表現豊かな音声生成

VibeVoice-TTS-1.5Bは、テキストから音声への変換を専門とする核心モデルです。一度の生成で最大90分間の連続音声を出力でき、最大4人の異なる話者による自然な会話を模倣できます。生成される音声は表現豊かで、自然で滑らかであり、現実的な沈黙、強調、感情の転換を再現できます。これは、ポッドキャスト、長編の音声物語、オーディオブック、または複数のキャラクターが登場する対話コンテンツの作成に最適です。

多くの伝統的なTTSモデルが1〜2人の話者しかサポートしていないのに対し、VibeVoice-TTSは長時間、複数話者の一貫性において大きな進歩を遂げました。その下部には、継続的な音声トークン化器(音声と意味のトークン化器)と低フレームレート設計(7.5Hz)が組み合わされ、長系列処理の計算効率を大幅に向上させています。

VibeVoice-Realtime-0.5B: 約300ミリ秒の遅延を持つリアルタイムTTS

VibeVoice-Realtime-0.5Bはリアルタイムシーンに焦点を当てており、ストリーミングテキスト入力をサポートし、最初の音声出力の遅延は約300ミリ秒で、約10分間の長編音声を生成できます。このモデルは、即時反応が必要なインタラクティブなアプリケーション、例えばリアルタイムの音声アシスタントやライブ配信の字幕作成などに特に適しています。

また、プロジェクトでは実験的な話者サポートも導入されており、多言語の音声や様々な英語スタイルのバリエーションが含まれており、開発者にとってより多くのカスタマイズの可能性を提供しています。

AIbaseの評価:マイクロソフトのVibeVoiceのオープンソース化は、高性能な音声AIの使用のハードルを下げ、ローカルでの展開のために完全なソリューションを提供しています。このプロジェクトは、潜在的な誤用リスクにより一時的に非表示になりましたが、音声ウォーターマークや聴取可能な免責事項などのセキュリティメカニズムを組み込むことで再び公開されました。これは、責任あるAI開発の原則を示しています。現在、開発者はGitHubのリポジトリやHugging Faceからモデルの重みを取得し、Colabなどのプラットフォームで簡単に試用できます。

オープンソースコミュニティの継続的な貢献(Apple Silicon向けの最適化のフォークなど)により、VibeVoiceはコンテンツ制作、アクセシビリティツール、音声インターフェースなどの分野で急速に実装される見込みです。興味のある開発者は、マイクロソフトの公式プロジェクトページを訪れてさらに探求してください。

プロジェクトのアドレス:https://github.com/microsoft/VibeVoice