巨人網絡AI Lab 近日聯合清華大學 SATLab、西北工業大學,重磅推出了三項音視頻領域的多模態生成技術成果:音樂驅動的視頻生成模型 YingVideo-MV、零樣本歌聲轉換模型 YingMusic-SVC 與歌聲合成模型 YingMusic-Singer

這些體現了團隊在音視頻多模態生成技術上的最新進展,並將陸續在 GitHub、HuggingFace 等平臺開源。其中,YingVideo-MV 模型實現僅憑“一段音樂加一張人物圖像”即可生成音樂視頻片段,它能夠通過對音樂的節奏、情緒和內容結構進行多模態分析,確保鏡頭運動與音樂高度同步,並具備推、拉、搖、移等鏡頭語言,同時利用長時序一致性機制有效緩解長視頻中常見的人物“畸變”和“跳幀”現象。

巨人網絡

在音頻生成方面,YingMusic-SVC 主打**“真實歌曲可用”**的零樣本歌聲轉換能力,通過針對真實音樂場景的優化,有效抑制了伴奏、和聲和混響的干擾,顯著降低了破音與高音失真風險,爲高質量的音樂再創作提供了穩定的技術支撐。

YingMusic-Singer 歌聲合成模型則支持在給定旋律下輸入任意歌詞,即可生成發音清晰、旋律穩定的自然歌聲,其主要特點在於能夠靈活適應不同長度的歌詞,並支持零樣本音色克隆,大幅提升了 AI 演唱在創作中的靈活度與實用性,有效降低了音樂創作的門檻。