Suno、ストレスが大きい！ Tencentと清華大学が共同でSongGeneration 2を発表、音素誤差率は8.55%に低下

2026年初、AI音楽分野はまた一つの衝撃的な出来事を迎えました。3月9日、テンセントと清华大学人機音声インタラクション実験室が共同で開発した音楽基盤モデル SongGeneration2 が正式リリースされました。このモデルは技術的な構造において質的な飛躍を遂げており、複数の核心的次元において現在の主流のオープンソースモデルに対して「断崖式の優位性」を示し、全体的な品質においてトップクラスの商用モデルと正面から対抗するまでに至りました。

3つの突破: AI音楽に「プラスチック感」はもうない

SongGeneration2の優れた点は、その下層構造の全面的なアップグレードに起因しています。主に過去のAI音楽の3つの課題を解決しました:

高い音楽性: 単純なメロディーの重ね合わせではなく、このモデルは複雑なマルチトラック編曲を処理でき、空間的な階層感が非常に強くなっています。
高い歌詞の正確さ: 音読が曖昧だったり、幻覚によるズレがあったのは過去のことです。音素誤り率（PER）はわずか8.55%Suno v5（12.4%）より顕著に優れており、MiniMax2.5に次ぐ水準です。
非常に高い制御性: テキストの記述や音声のヒントを問わず、正確に対応し、スタイルや感情の深くカスタマイズ可能な作成が可能です。

「二つのコア」の駆動: LLMと拡散モデルの夢のような連携

SongGeneration2のアーキテクチャ設計では、画期的な混合型LLM-拡散アーキテクチャが採用されています:

作曲の脳（LeLM）: 全体的な構造と歌唱の詳細を担当し、「どう歌うか」の問題を解決します。
高保真レンダラー（Diffusion）: 言語モデルの指導のもと、非常に複雑な音響細部を合成します。
階層的表現: 既存の混合表現とマルチトラック表現を並行してモデリングし、メロディーの安定性と音質の繊細さを両立させています。

本格的なオープンソース、低ハードル: 普通のパソコンでも「作曲」が可能

開発者にとって最も喜ばしいのは、テンセントが今回のオープンソースにおいて非常に大きな誠意を見せたことです。4Bパラメータを持つSongGeneration-v2-largeモデルは正式にオープンソースとなり、中国語や英語など多言語生成をサポートしています。驚いたことに、このモデルは22GBのVRAMを持つコンシューマー級ハードウェアでスムーズに動作し、ローカル化やプライベートな創作が可能になりました。

ユーザーが即座に体験できるようにするために、プロジェクトチームはHuggingFaceにもSongGeneration-v2-Fastバージョンを公開しました。音質をほんの少し犠牲にすることで、高速生成を実現しており、1分以内で完全な楽曲を作成することが可能です。

SongGeneration2

Suno、ストレスが大きい！ Tencentと清華大学が共同でSongGeneration 2を発表、音素誤差率は8.55%に低下

関連推奨

ストリーミング大手の新動き！Spotify社長がAI音楽を擁護：公式コンテンツで悪質なコンテンツを撃退

Spotifyとユニバーサル・ミュージックがAIカバーおよびミックスを共同で展開：正規版著作権の画期的な挑戦

配達とタクシーは一言で解決？微信がAIスマートエージェントを秘匿して開発し、腾讯が重武装で対抗

MiniMax Music 2.5 の正式リリース：AI音楽のコントロール性とリアルさの2つの課題を解決

97％の人がAI音楽を区別できない真実とは想像以上に悪いものではない

Suno、ストレスが大きい！ Tencentと清華大学が共同でSongGeneration 2を発表、音素誤差率は8.55%に低下

関連推奨

ストリーミング大手の新動き！Spotify社長がAI音楽を擁護：公式コンテンツで悪質なコンテンツを撃退

Spotifyとユニバーサル・ミュージックがAIカバーおよびミックスを共同で展開：正規版著作権の画期的な挑戦

配達とタクシーは一言で解決？微信がAIスマートエージェントを秘匿して開発し、腾讯が重武装で対抗

MiniMax Music 2.5 の正式リリース：AI音楽のコントロール性とリアルさの2つの課題を解決

97％の人がAI音楽を区別できない 真実とは想像以上に悪いものではない

97％の人がAI音楽を区別できない真実とは想像以上に悪いものではない