腾讯のAIチームは、強力な音色クローン、トラック別生成、そして高忠実度の音楽表現を特徴とする新しいAI歌唱モデル「LeVo」を発表しました。このモデルは業界で大きな話題を呼び、特に音声合成技術の進化に貢献しています。情報によると、LeVoは多くの重要な指標において業界をリードするSuno4.5と互角に戦えるほどのパフォーマンスを発揮し、中国のAI音楽生成技術の地位向上に寄与しています。AIbaseが最新情報を整理し、LeVoの革新的な機能と可能性について深く分析しました。
Suno4.5に匹敵: LeVoの硬核な実力
LeVoは腾讯のAIラボによって開発され、言語モデル(LM)アーキテクチャと音声エンコーダー・デコーダーを組み合わせ、複数の音声トラック(人声と伴奏を統合したものや、人声と伴奏を別々に生成するもの)を並列生成することができます。音楽性、音質、人声と伴奏の調和度、歌詞の整合性など、さまざまな次元で既存のオープンソース学術モデルを上回っています。最新の評価では、LeVoは歌詞の整合性(LYC)においてSuno4.5よりも0.21点高いスコアを獲得しており、卓越したテキスト制御能力を示しています。
プロジェクトURL: https://levo-demo.github.io/
ゼロサンプル音色クローン: 個人向け音楽創作の新境地
LeVoはゼロサンプル音色クローン(Zero-Shot Voice Cloning)をサポートしており、わずか3秒間の音声サンプルで目標音色を正確に再現できます。音調、感情、リズムなどを含む詳細も再現可能です。この機能は大量のトレーニングデータを必要としないため、音楽制作の技術的なハードルを大幅に下げます。個人向けに独自の音色を作成したり、有名歌手のスタイルを模倣したりする際も、LeVoは自然で滑らかな生成結果を提供します。これにより、クリエイターは無限の創造力を発揮できるようになります。
トラック別生成: 専門的な音楽制作の強力なツール
従来のAI音楽生成モデルとは異なり、LeVoは人声と伴奏を分けて生成するモードをサポートしています。後工程でのミックスや編集に柔軟性を提供し、プロの音楽制作者にとって非常に便利です。これにより、高品質な分離音声を簡単に生成できます。一方で、Suno4.5は音色クローンやトラック別サポートに若干の弱点がありますが、LeVoのこの特性は業界標準を新たなレベルに引き上げています。
高音質と多様なシナリオ適用
LeVoの音質表現はSuno4.5の業界標準に近く、特に音楽性、人声と伴奏の調和度、音質(MOSスコア)などの点で優れています。ただし、曲構造の明確さに関してはSuno4.5やMureka-O1に比べて少し劣ります。それでも、LeVoは多様なユーザーの好みに基づくアラインメント手法を採用することで、さまざまなスタイルやシナリオで高忠実度の音楽を保証しています。ポップミュージック、映画のサウンドトラック、広告音楽など、あらゆる分野でプロフェッショナルな出力を提供します。
オープンソースの約束: AI音楽エコシステムの促進
腾讯は、LeVoをオープンソースとして公開することを表明しており、完全なコードと事前学習済みモデルを世界中の開発者に無料で提供すると計画しています。この取り組みは、腾讯がAI音楽分野で持つ野心を示すだけでなく、グローバルな音楽クリエイティブコミュニティに新しい活力をもたらします。AIbaseは、LeVoのオープンソース戦略が創作のハードルを下げ、コンテンツクリエイターと音楽愛好家たちが創造的な表現を実現する助けになると注目しています。
腾讯によるLeVoの発表は、中国のAI音楽生成技術が世界の先端に達したことを示しています。ゼロサンプル音色クローンやトラック別生成といった機能は、音楽創作に革命的な変化をもたらしました。Suno4.5との一部指標での差異はありますが、LeVoはコストパフォーマンスとオープンソースの利点から、AI音楽分野における強力な競争者となっています。AIbaseは、LeVoの登場が中国のAI技術の国際的な影響力を高め、音楽創作の民主化の一助となると評価しています。