告別“聲畫兩張皮”：通義實驗室發佈 PrismAudio，讓 AI 聽懂視頻再配音

在 AI 視頻生成大火的當下，“有畫無聲”或“聲不對位”一直是影響沉浸感的最後一道屏障。針對這一痛點，阿里通義實驗室近期推出了全新的視頻生成音頻（Video-to-Audio）框架——PrismAudio。該研究已被頂級 AI 會議 ICLR2026收錄，核心旨在爲視頻自動配上嚴絲合縫的環境音效。

先思考再發聲:引入“思維鏈”的配音大師

傳統的配音模型通常是“直覺式”生成，容易出現馬蹄落在地上卻發出鳥叫，或者聲音比畫面慢半拍的尷尬情況。PrismAudio 的突破在於它學會了“先寫筆記，再發聲”。

分解式思維鏈: 模型在生成聲音前，會先分析視頻內容:畫面裏有什麼?聲音何時開始?音質是清脆還是低沉?聲源在左還是在右?
四重老師打分: 爲了確保質量，研發團隊引入了強化學習，由四位“虛擬老師”從語義一致性、時序同步性、美學質量和空間準確性四個維度同時打分。這種多維度的反饋機制，解決了以往模型“顧此失彼”的頑疾。

輕量且高效:9秒視頻配音僅需0.6秒

除了聽得準，PrismAudio 還跑得極快。得益於自研的 Fast-GRPO 高效訓練算法，該模型在性能跨越式提升的同時，保持了極高的運行效率:

小身材大能量: 模型參數僅爲5.18億，遠低於動輒數十億參數的同類模型。
極速響應: 生成一段9秒的高質量音頻僅需 0.63秒，幾乎做到了“即傳即得”。

行業觀察:環境音效的“真”時代

PrismAudio 的出現，不僅爲影視後期、短視頻創作提供了強大的自動化工具，也爲多目標生成任務提供了新的思路。當 AI 能夠精準權衡聲音的質感與空間感，未來的視頻創作將真正實現“所見即所聞”。

論文地址:arXiv:2511.18833

開源地址:https://prismaudio-project.github.io/

CapCut 與 Gemini 合作推出深度集成:AI 創作工具實現智能互聯

CapCut與Google Gemini App達成合作，用戶將可直接在Gemini應用內調用CapCut的高級編輯功能，便捷完成圖像和視頻創作。此舉標誌着創意工具間的深度融合，推動創作流程更互聯、對話化和直觀化，實現智能集成。CapCut表示這只是開端。

拒絕彩排，真刀真槍上舞臺!美團LongCat-Video-Avatar1.5開源:全面擊敗主流閉源模型

美團龍貓大模型團隊開源商用級數字人視頻生成模型LongCat-Video-Avatar1.5，實現從開源SOTA到商業應用的跨越。該版本在脣形同步、物理合理性、長視頻穩定性、多人互動及高效推理等核心維度顯著提升，旨在解決傳統數字人視頻痛點，推動數字人向千人千面的真實場景應用。

中國AI短劇閃耀戛納：杭州“技術+內容”協同出海新範式

在第79屆戛納國際電影節上，兩部中國全AI製作短劇《摸金之天機入夢》與《餓塔》從全球120個國家、1000餘件作品中脫穎而出，入選戛納豎屏劇展。這是中國全AI製作短劇首次登上該電影節官方展映單元，標誌着中國AI影視作品已具備國際主流市場競爭實力，展現了“杭州製造”的科技與創意實力。

谷歌推出“內置 Gemini”解決方案，全面賦能第三方智能音箱與攝像頭

谷歌在Google I/O 2026發佈Gemini生態進展後，於5月21日推出“內置Gemini”方案，將AI能力引入第三方智能家居硬件，首期聚焦智能攝像頭和音箱。此舉旨在複製Google Assistant的生態擴張路徑，重塑交互體驗，核心是向開發者提供技術輸出。

400tokens/s 刷新全球紀錄!智譜聯合TileRT推出 GLM-5.1高速版 API