2026年初、AI音楽分野はまた一つの衝撃的な出来事を迎えました。3月9日、

3つの突破: AI音楽に「プラスチック感」はもうない
高い音楽性: 単純なメロディーの重ね合わせではなく、このモデルは複雑なマルチトラック編曲を処理でき、空間的な階層感が非常に強くなっています。
高い歌詞の正確さ: 音読が曖昧だったり、幻覚によるズレがあったのは過去のことです。音素誤り率(PER)はわずか8.55%
Suno v5 (12.4%)より顕著に優れており、 に次ぐ水準です。MiniMax2.5 非常に高い制御性: テキストの記述や音声のヒントを問わず、正確に対応し、スタイルや感情の深くカスタマイズ可能な作成が可能です。

「二つのコア」の駆動: LLMと拡散モデルの夢のような連携
作曲の脳(LeLM): 全体的な構造と歌唱の詳細を担当し、「どう歌うか」の問題を解決します。
高保真レンダラー(Diffusion): 言語モデルの指導のもと、非常に複雑な音響細部を合成します。
階層的表現: 既存の混合表現とマルチトラック表現を並行してモデリングし、メロディーの安定性と音質の繊細さを両立させています。
本格的なオープンソース、低ハードル: 普通のパソコンでも「作曲」が可能
開発者にとって最も喜ばしいのは、テンセントが今回のオープンソースにおいて非常に大きな誠意を見せたことです。4Bパラメータを持つ
ユーザーが即座に体験できるようにするために、プロジェクトチームはHuggingFaceにも
