新加坡南洋理工大學的研究團隊近日公開了一項名爲SOLAMI的AI技術,它能創造出活靈活現的3D虛擬角色,不僅能在VR世界裏跟你實時互動,還能理解你的語音和動作,陪你聊天、跳舞甚至打拳擊! 這簡直是遊戲、虛擬社交和單身狗的福音啊!


SOLAMI是一個端到端的社會視覺-語言-動作(VLA)建模框架,它利用深度學習技術,將用戶的語音和動作轉換爲虛擬角色可以理解的“語言”,並生成相應的語音和動作迴應。說人話就是它能把你的語音和動作翻譯成AI聽得懂的語言,然後讓虛擬角色做出相應的反應,就像真人一樣自然流暢,告別以往AI角色的呆板和機械感。

爲了訓練這個AI“社交高手”,研究團隊也是煞費苦心。
他們創建了一個名爲SynMSI的合成數據集,裏面包含了海量的對話、動作和語音數據。這些數據可不是隨便收集的,而是利用現有的動作數據庫和強大的語言模型,經過精心設計和處理生成的。
更厲害的是,SOLAMI還搭載了一個VR界面,讓你能身臨其境地和虛擬角色互動。
你戴上VR設備,就能看到虛擬角色站在你面前,跟你聊天、做動作,彷彿置身於真實的社交場景中。
研究團隊表示,SOLAMI技術應用前景非常廣闊,未來可能顛覆遊戲、虛擬社交和教育培訓等多個領域。

比如,遊戲裏的NPC角色可以變得更智能,更像真人一樣和你互動;虛擬社交平臺上的虛擬化身可以更個性化,讓你在虛擬世界裏也能找到志同道合的朋友;甚至還能創造出虛擬老師,讓學習變得更生動有趣。
當然,SOLAMI目前還處於研究階段,但它展現出的巨大潛力已經讓科技圈爲之振奮。
研究團隊通過一系列實驗,證明了SOLAMI在動作質量、語音質量和反應速度上都比現有的方法更勝一籌。 更重要的是,用戶測試結果顯示,大家對SOLAMI創造的虛擬角色都非常滿意,看來“AI老婆/老公”的時代真的要來了!
SOLAMI技術的核心亮點:
端到端VLA模型: 將用戶的語音和動作直接轉化爲虛擬角色的語音和動作迴應,實現自然流暢的互動體驗。
SynMSI合成數據集: 利用現有的動作數據集和大型語言模型,自動生成大量多輪多模態對話數據,解決訓練數據缺乏的問題。
沉浸式VR界面: 用戶可以通過VR設備與虛擬角色進行面對面的交流,體驗更真實的互動感受。
更智能、更人性化: SOLAMI可以創建出更智能、更逼真的虛擬角色,讓虛擬互動體驗更具“人情味”。
研究團隊表示,SOLAMI技術的應用前景十分廣闊,它可以用於遊戲、虛擬社交、教育培訓等多個領域。 例如,在遊戲中,SOLAMI可以創建出更智能、更逼真的NPC角色,提升玩家的遊戲體驗; 在虛擬社交中,SOLAMI可以幫助用戶創建更個性化的虛擬化身,增強虛擬社交的沉浸感; 在教育培訓中,SOLAMI可以創建出更生動的虛擬教師,提升教學效果。
研究團隊還進行了一系列實驗,結果表明,SOLAMI技術在動作質量、語音質量和推理延遲方面均優於現有的其他方法。 用戶研究也表明,用戶對SOLAMI技術構建的3D虛擬角色的滿意度非常高。
目前,SOLAMI技術仍處於研究階段,但其未來發展潛力巨大,有望爲我們帶來更智能、更人性化的虛擬互動體驗。
項目主頁:https://solami-ai.github.io/
技術報告:https://arxiv.org/abs/2412.00174
完整介紹視頻:https://www.bilibili.com/video/BV1D6zpYHEyc/
