阿里的EMO框架通過關注音頻提示和麪部動作之間的聯繫,增強了頭部視頻生成的真實度、自然度和表現力。EMO支持不同語言的歌曲和口語音頻生成,可以讓角色化身具有豐富的表情和動態。此外,EMO還能實現不同角色之間的聯動,爲視頻生成帶來更多可能性。
相關推薦
生數科技與清華大學聯合推出 TurboDiffusion 視頻生成加速框架
生數科技與清華TSAIL實驗室聯合開源TurboDiffusion視頻生成加速框架,實現最高200倍推理加速,且幾乎不影響生成質量,突破視頻生成關鍵瓶頸。
Dec 23, 2025
168.5k
智譜多模態開源周圓滿落幕:四項視頻生成核心技術全面開放
智譜團隊開源四項視頻生成核心技術,包括GLM-4.6V視覺理解、AutoGLM設備控制、GLM-ASR語音識別和GLM-TTS語音合成模型,展示其在多模態領域的最新進展,爲視頻生成技術發展奠定基礎。
Dec 12, 2025
166.7k
騰訊元寶推出新功能:一句話或一張圖即可生成視頻!
騰訊元寶推出新功能,用戶用一句話或一張圖片即可生成高清視頻。基於HunyuanVideo1.5開源模型,採用DiT架構,8.3億參數,支持5-10秒視頻生成,簡化內容創作流程。
Nov 21, 2025
160.2k
阿里千問APP公測,與ChatGPT展開全面競爭
阿里巴巴11月17日推出“千問”APP公測版,基於開源模型Qwen3,免費結合生活場景生態,與ChatGPT競爭。管理層視其爲AI時代關鍵戰役,已上線應用商店及網頁、PC版,國際版即將發佈。
Nov 17, 2025
422.6k
xAI升級Grok Imagine iOS版:新增視頻生成與提示重混
xAI即將爲iOS版Grok Imagine工具推出視頻生成功能,用戶可通過文本或圖像提示創建高清動態視頻,並支持從內容提要中直接重混提示以快速迭代創作。界面輕度優化提升操作流暢性,基於Aurora/Grok核心模型,支持一鍵高清升級,生成數秒短片,適用於廣告和創意內容。重混機制降低輸入門檻,簡化創作流程。
Oct 30, 2025
890.2k
