阿里最新推出的基於音頻驅動的肖像視頻生成框架EMO,可以根據輸入音頻生成任意持續時間的視頻。該框架由阿里巴巴智能計算研究院團隊開發,是一種富有表現力的視頻生成技術。EMO與之前的AI視頻生成方法相比有較大提升,但也存在耗時較長的缺點。團隊成員包括薄列峯等人,他們在論文中詳細介紹了EMO的技術路線和特性。這一新技術爲AI領域帶來了新的突破,讓人們對未來的發展充滿期待。
相關推薦
通義千問宣佈正式推出 Qwen Chat Memory 功能
阿里通義千問推出Qwen Chat Memory功能,實現“長記憶”能力。它能主動保留用戶偏好、習慣及過往對話內容,在多輪交流中關聯回憶,提供更連續、個性化的自然交互體驗。
阿里發佈新一代Agentic Coding編程平臺Qoder
阿里發佈Qoder編程平臺,具備強大上下文工程和編程智能體能力,集成頂尖編程模型,可檢索10萬代碼文件,極大提升開發效率。AI自主研發功能將數天開發縮短至十分鐘,有望徹底改變軟件開發模式。
阿里巴巴Qwen 3全系適配蘋果MLX架構
近日,阿里巴巴通義千問官方宣佈,正式發佈並開源Qwen3全系列32款MLX量化模型,此舉引發AI領域廣泛關注。 MLX作爲一款開源的機器學習框架,專爲蘋果芯片深度適配,具備高效訓練和部署AI大模型的能力,正受到越來越多AI開發者的青睞。而阿里巴巴此次動作,被業內視爲是爲國行Apple Intelligence(蘋果智能)做準備。此前,多方權威消息已透露,阿里巴巴將成爲蘋果在中國大陸的大模型合作商。
阿里開源MaskSearch!AI學會主動搜索+多步推理,複雜問題精準破解
近日,阿里通義實驗室宣佈開源全新預訓練框架MaskSearch,通過創新的檢索增強掩碼預測(RAMP)方法和強化學習技術,顯著提升AI在複雜問題解決中的表現。這一框架讓AI學會主動搜索與多步推理,爲智能搜索和問答系統開闢了新的可能性。AIbase編輯團隊整理了最新信息,爲您深度解析MaskSearch的亮點與行業影響。MaskSearch:讓AI學會“主動搜索+多步推理”MaskSearch的核心創新在於其**檢索增強掩碼預測(RAMP)**機制。這一機制通過模擬“填空題”的方式,訓練AI在面對不完整信息時,主動調用搜
音頻驅動生成面部視頻技術JoyVASA 支持小動物角色
近日,研究人員提出了一種名爲 JoyVASA 的新技術,旨在提升音頻驅動的圖像動畫效果。隨着深度學習和擴散模型的不斷髮展,音頻驅動的人像動畫在視頻質量和嘴形同步精度方面取得了顯著進展。然而,現有模型的複雜性增加了訓練和推理的效率問題,同時也限制了視頻的時長和幀間連續性。JoyVASA 採用了兩階段的設計,第一階段引入了一種解耦的面部表徵框架,將動態面部表情與靜態的三維面部表徵分開。這種分離使得系統能夠將任何靜態的三維面部模型與動態動作序列相結合,從而生
