阿里巴巴團隊發佈了肖像視頻生成框架 EMO,能夠生成具有豐富面部表情和頭部姿勢的聲音肖像視頻。EMO利用參考網絡從參考圖像和動作幀中提取特徵,通過預訓練的音頻編碼器處理聲音並嵌入,結合多幀噪聲和麪部區域掩碼生成視頻。實驗結果表明,EMO在表現力和真實感方面優於現有方法。該模型潛在應用方向將提高數字媒體和虛擬內容生成技術水平,但也可能被用作犯罪工具。