近日,研究人員正式發佈LPM1.0模型,該研究項目旨在通過單張參考圖像實時生成涵蓋說話、聆聽及唱歌行爲的人物視頻。LPM1.0的核心突破在於其多模態處理能力,能同步整合文本、音頻與圖像輸入,生成具備精確脣形同步、細膩面部表情及自然情緒過渡的動態畫面。該模型支持直接接入ChatGPT、豆包等主流語音AI,從而將傳統的語音對話升級爲具備視覺反饋的實時交互。
技術層面,LPM1.0引入了“多粒度身份條件化”技術,通過多角度、多表情的參考素材提取細節,無需模型自主生成如牙齒、皺紋或側面輪廓等複雜特徵,顯著提升了跨風格處理能力。無論是照片級寫實人臉、動漫還是3D遊戲角色,皆可實現無需二次訓練的即時驅動。此外,該模型支持流式傳輸技術,在長達45分鐘的視頻生成中仍能保持系統穩定性。
在交互邏輯上,LPM1.0能夠精準識別三種對話狀態:聆聽時生成點頭或目光偏移等反應性表情;說話時由音頻驅動肢體與脣動;停頓時則依據文本指令產生自然閒暇行爲。項目經理曾愛玲指出,LPM1.0不僅適用於實時對話,亦支持離線音頻驅動視頻生成,爲播客及影視創作提供了技術冗餘。
儘管展現出較強的應用潛力,開發團隊強調LPM1.0目前僅作爲研究項目,暫無公開發布代碼或權重的計劃。研究人員坦言,生成的視頻與真實影像間仍存在定性差距,且技術本身潛藏的深度僞造(Deepfake)風險不容忽視。該項研究的意義在於明確了未來AI系統的演進方向:即從單一的邏輯交互向具備情感響應、眼神交流及視覺具身化的全維度交互形態轉變。
