このたび、マイクロソフト研究院は最新の音声モデルである VibeVoice-1.5B を正式にオープンソース化しました。このモデルは音声合成技術において複数の重大な突破を遂げており、合成された音声がより自然で長く、効果も優れています。

VibeVoice-1.5B は一度に90分にも及ぶ超長時間の音声を合成できる能力を持っています。これは従来の音声合成モデルでは珍しいものです。以前は多くのモデルが60分以内の音声しか合成できず、30分を超えると音質の変化や意味の断絶が生じることがありました。このモデルは最大4人の発言者に対応しており、マルチスピーカーの合成性能を大幅に向上させています。それまでのオープンソースモデルでは最大で2人の発言者までしか対応できませんでした。さらに、VibeVoice は24kHzの元の音声を3200倍圧縮することができ、圧縮効率を大幅に高めながらも高音質の音声を保持しています。
VibeVoice モデルのコアは、独自の二重トークナイザーアーキテクチャです。従来のTTSモデルは単一のトークナイザーに依存して特徴を抽出していましたが、VibeVoice は音声トークナイザーと文脈トークナイザーの協働作業方式を独創的に導入し、音質と文脈の不一致問題を解決しました。音声トークナイザーは音声の特徴を保持し、極限的な圧縮を実現することに注力し、文脈トークナイザーはテキストの文脈と一致した特徴を抽出し、合成された音声の感情とテキスト内容の一貫性を確保します。
トレーニングに関しては、VibeVoice はコース学習戦略を採用し、入力シーケンスの長さを段階的に増加させることで、超長シーケンスを処理することによるトレーニング失敗を回避しています。トレーニングプロセス中、音声トークナイザーと文脈トークナイザーのパラメーターは変化せず、特徴抽出モジュールの安定性を保証し、トレーニング期間を短縮します。
VibeVoice-1.5B のオープンソース化は、音声合成分野に新たな技術的突破をもたらし、将来のより大規模なパラメーターモデルのリリースの基盤を築きました。音声処理および音声合成の研究者や開発者にとって、これは注目に値する革新的な進展です。
オープンソースの場所: https://huggingface.co/microsoft/VibeVoice-1.5B
オンラインデモ: https://aka.ms/VibeVoice-Demo
重要なポイント:
🔊 VibeVoice-1.5B モデルは一度に90分の超長時間の音声を合成でき、最大4人の発言者をサポートしています。
💾 このモデルは3200倍の音声圧縮率を実現し、高音質の音声効果を保持しています。
🤖 二重トークナイザーアーキテクチャを採用し、音質と文脈の不一致問題を解決しています。
