2026年初、AI音楽分野はまた一つの衝撃的な出来事を迎えました。3月9日、テンセントと清华大学人機音声インタラクション実験室が共同で開発した音楽基盤モデル SongGeneration2 が正式リリースされました。このモデルは技術的な構造において質的な飛躍を遂げており、複数の核心的次元において現在の主流のオープンソースモデルに対して「断崖式の優位性」を示し、全体的な品質においてトップクラスの商用モデルと正面から対抗するまでに至りました。

image.png

3つの突破: AI音楽に「プラスチック感」はもうない

SongGeneration2の優れた点は、その下層構造の全面的なアップグレードに起因しています。主に過去のAI音楽の3つの課題を解決しました:

  • 高い音楽性: 単純なメロディーの重ね合わせではなく、このモデルは複雑なマルチトラック編曲を処理でき、空間的な階層感が非常に強くなっています。

  • 高い歌詞の正確さ: 音読が曖昧だったり、幻覚によるズレがあったのは過去のことです。音素誤り率(PER)はわずか8.55%Suno v5(12.4%)より顕著に優れており、MiniMax2.5に次ぐ水準です。

  • 非常に高い制御性: テキストの記述や音声のヒントを問わず、正確に対応し、スタイルや感情の深くカスタマイズ可能な作成が可能です。

image.png

「二つのコア」の駆動: LLMと拡散モデルの夢のような連携

SongGeneration2のアーキテクチャ設計では、画期的な混合型LLM-拡散アーキテクチャが採用されています:

  • 作曲の脳(LeLM): 全体的な構造と歌唱の詳細を担当し、「どう歌うか」の問題を解決します。

  • 高保真レンダラー(Diffusion): 言語モデルの指導のもと、非常に複雑な音響細部を合成します。

  • 階層的表現: 既存の混合表現とマルチトラック表現を並行してモデリングし、メロディーの安定性と音質の繊細さを両立させています。

本格的なオープンソース、低ハードル: 普通のパソコンでも「作曲」が可能

開発者にとって最も喜ばしいのは、テンセントが今回のオープンソースにおいて非常に大きな誠意を見せたことです。4Bパラメータを持つSongGeneration-v2-largeモデルは正式にオープンソースとなり、中国語や英語など多言語生成をサポートしています。驚いたことに、このモデルは22GBのVRAMを持つコンシューマー級ハードウェアでスムーズに動作し、ローカル化やプライベートな創作が可能になりました。

ユーザーが即座に体験できるようにするために、プロジェクトチームはHuggingFaceにもSongGeneration-v2-Fastバージョンを公開しました。音質をほんの少し犠牲にすることで、高速生成を実現しており、1分以内で完全な楽曲を作成することが可能です。

SongGeneration2