ジャイアントネットワークAIラボは最近、清华大学SATLabおよび西北工業大学と共同で、音声・動画分野におけるマルチモーダル生成技術の3つの新成果を発表しました。それは、音楽駆動型ビデオ生成モデル「YingVideo-MV」、ゼロサンプル歌唱変換モデル「YingMusic-SVC」、そして歌唱合成モデル「YingMusic-Singer」です。
これらの成果は、チームが音声・動画マルチモーダル生成技術において最新の進展を遂げていることを示しており、今後GitHubやHuggingFaceなどのプラットフォームで順次オープンソース化される予定です。その中でも、「YingVideo-MV」モデルは、単なる「1つの音楽と人物の画像」だけで、音楽ビデオのセグメントを生成することが可能です。このモデルは、音楽のリズム、感情、構造などに対してマルチモーダル分析を行い、カメラの動きと音楽が非常に一致するようにし、ズームイン・ズームアウト・パン・トラッキングなどのカメラ言語を備えています。また、長時間の連続性メカニズムにより、長編動画でよく見られる人物の「変形」や「フレーム飛び」の現象を効果的に緩和しています。

音声生成において、「YingMusic-SVC」は「本物の曲を使える」ゼロサンプル歌唱変換機能を特徴としています。リアルな音楽シーンに特化した最適化により、バックグラウンド音楽、ハーモニー、リバーブの干渉を効果的に抑えており、ノイズや高音の歪みのリスクを大幅に低減し、高品質な音楽再創作に安定した技術的サポートを提供します。
一方、「YingMusic-Singer」歌唱合成モデルは、与えられたメロディーに任意の歌詞を入力することで、明確な発音と安定したメロディーを持つ自然な歌声を生成することができます。このモデルの主な特徴は、異なる長さの歌詞に柔軟に対応でき、ゼロサンプルの音色クローンをサポートしていることで、AI歌唱の創造性と実用性を大幅に向上させ、音楽創作の門檻を効果的に下げています。
