2025年8月15日、昆仑万維グループはMureka V7.5モデルの正式リリースを発表し、AI音楽創作分野に新たな突破をもたらしました。このニュースは、昆仑万維SkyWork AI技術発表週の完結を示すものです。5日間の発表期間中、昆仑万維は毎日新しいモデルをリリースし、マルチモーダルAIの核心的なシナリオをカバーする先端技術を紹介しました。SkyReels-A3、Matrix-Game2.0、Matrix-3D、Skywork UniPic2.0、およびSkywork Deep Research Agentなどのモデルが含まれています。
Mureka V7.5のリリースは、今回の技術発表週の最終となる大作です。このモデルは中国語の曲作りにおいて優れた能力を発揮しています。音色や演奏技法だけでなく、発音や感情表現にも大きな進歩を遂げています。Mureka V7.5は中国語の曲調や要素を深く理解しており、中国語の音楽芸術の神髄と感情を正確に伝えます。伝統的な民謡、歌舞伎、クラシック華語ポップ、現代のフォーク音楽など、多様なスタイルをカバーし、中国語音楽の多様性と文化的特性を示しています。
人声の現実性と感情の深さをさらに向上させるために、Mureka V7.5は自動音声認識(ASR)技術を最適化しました。この技術は歌唱の微視的な側面にまで及んでおり、歌詞を正確に識別し、実際に歌う際の息の使い方、感情の起伏、歌唱の細部を分析できます。スマートに楽句を区切り、自然な息継ぎと停頓の位置を決定することで、Mureka V7.5は生成された人声の段落の明確さと構造のリアルさを顕著に向上させました。これらの細かいポイントを捕捉し、生成モデルに戻すことで、人声の自然さ、息の感覚、感情表現のリアルさが大幅に向上し、機械的な感じを効果的に減らし、AIによる曲の流暢さを人間の歌手に近づけます。特に中国語の曲特有のリズムや息の要件を処理する際には優れた性能を発揮します。
一方で、昆仑万維の音声チームは、MoE-TTSという、Mixture of Experts(MOE)に基づいたキャラクター記述型音声合成フレームワークをリリースしました。これは、オープンな記述シナリオを対象とした研究的なプロジェクトであり、ユーザーが自然言語によって音声の特徴とスタイルを正確に制御できるようにします。開源データのみを使用しても、この技術はキャラクターの適合度において閉鎖的な商用製品と同等またはそれ以上であることが可能です。MoE-TTSのリリースにより、比喩や類比などの複雑な修辞表現に対応する際に生成される音声がユーザーの期待から外れるという長年の課題を解決する可能性があります。このフレームワークは、事前学習された大規模言語モデル(LLM)のテキスト処理能力と音声専門モジュールを組み合わせ、モードルーティングにより各モードが独立して最適化され、相互に干渉しないようにすることで、「知識ゼロ損失」の汎化理解能力を実現しています。領域内および領域外の説明を含む二つのテストセットにおいて、MoE-TTSはスタイルの表現力の適合度や全体の適合度などの音声制御において優れた性能を発揮し、複雑な説明の一致度における優位性を示しています。
MoE-TTSのリリースは、学術界に対して再現可能なオープン記述TTSソリューションを提供するとともに、モードの分離と知識の固定移行の技術パスが音声合成において持つ巨大な潜在力を証明しています。この突破により、業界は「閉じたタグ制御」から「自然言語の自由制御」への新規範式へと進む可能性があります。デジタル人間、仮想アシスタント、没入型コンテンツ制作の体験向上を加速するでしょう。現在、MoE-TTSは継続的に改善されており、今後Mureka-Speechプラットフォームに統合される予定で、キャラクターの吹き替え用のベースモデルとして機能し、世界中の開発者やクリエイターにオープンで効率的でカスタマイズ可能な記述型音声合成能力を提供する予定です。
昆仑万維グループは、Mureka V7.5とMoE-TTSのリリースを通じて、AI音楽創作および音声合成分野における強力な実力と革新性を示しました。これらの技術の登場は、音楽創作および音声合成に新たな可能性をもたらし、関連分野の研究および発展に新たなアイデアと方向性を提供しています。グローバルユーザーは、www.mureka.aiにアクセスして新しいV7.5モデルを体験し、音楽創作の無限の可能性を探求することができます。