創新項目EmoTalk3D引領3D說話頭像技術革新實現情感可控與高質量渲染

近日，一項名爲EmoTalk3D的前沿技術項目在人工智能領域引起了廣泛關注。該項目通過引入一個包含校準的多視圖視頻、情感標註及每幀3D幾何圖形的數據集——EmoTalk3D數據集，成功實現了在高保真度下自由合成情感豐富的3D說話頭像的突破。

QQ截圖20240807110705.png

據瞭解，EmoTalk3D項目的研究團隊針對當前3D說話頭像技術在多視圖一致性和情感表達方面的不足，提出了一種全新的合成方法。該方法不僅具有增強的脣部同步和渲染質量，還能在生成的說話頭像中實現可控的情緒表達。

研究團隊設計了一個“語音到幾何到外觀”的映射框架。該框架首先從音頻特徵中預測出忠實的3D幾何序列，然後基於這些幾何圖形合成由4D高斯表示的3D說話頭像的外觀。這一過程中，外觀被進一步分解爲規範和動態高斯分量，通過從多視圖視頻中的學習，二者得以融合，從而渲染出自由視圖的說話頭像動畫。

值得一提的是，EmoTalk3D項目的研究團隊還成功解決了先前方法在捕捉動態面部細節方面的難題，如皺紋和細微表情的呈現。實驗結果表明，該方法在生成高保真和情緒可控的3D說話頭像方面具有顯著優勢，同時在脣部運動生成中展現出了更好的渲染質量和穩定性。

目前，EmoTalk3D項目的代碼和數據集已在指定的HTTPS URL上發佈，供全球的研究人員和開發者們參考和使用。這一創新性的技術突破無疑將爲3D說話頭像領域的發展注入新的活力，並有望在未來應用於虛擬現實、增強現實、影視製作等多個領域。

Meta最新黑科技SPIRIT-LM：能說會寫還能懂你的情緒，這個 AI 語言模型有點強！

Meta AI 最新推出的 SPIRIT-LM 是一款具有革命性意義的多模態基礎語言模型，它能夠自由混合文本和語音，並能像人類一樣理解和表達情感。SPIRIT-LM 基於預訓練的文本語言模型構建，通過在文本和語音單元上進行持續訓練，擴展到語音模態。該模型將語音和文本序列連接成一個單一的標記集，並使用一個小型自動管理的語音-文本平行語料庫，採用詞級交織方法進行訓練。SPIRIT-LM 有兩個版本:基礎版（SPIRIT-LM-BASE）使用語音語義單元。情感版（SPIRIT-LM-EXPRESSIVE）使用音調和風格單元來模擬情感

靜態圖片轉視頻已經out了！ComfyUI-AdvancedLivePortrait還可編輯表情

ComfyUI-AdvancedLivePortrait 是一款用於實時動畫生成的創新工具，專注於通過面部表情編輯與應用，提升視頻創作的生動性。其核心功能包括從靜態照片中精準提取面部表情，並將其數字化爲可編輯參數，允許用戶自由調整表情，爲照片中的人物賦予全新情感。該工具不僅支持靜態圖像編輯，還能將表情無縫應用於視頻，爲視頻內容的後期製作帶來前所未有的靈活性。通過實時預覽功能，用戶可在編輯過程中即時查看效果，提高創作效率。ComfyUI-AdvancedLivePortrait已註冊至ComfyUI-Manager，簡化了技術操作，使普通用戶也能輕鬆製作出富有表現力的動態內容。

速讀100！哭着讀詩！ChatGPT版「Her」才上線一天就被玩壞

GPT-4o的高級語音功能迅速成爲焦點，展現出了令人驚歎的潛力和多樣性。其流暢的中文敘述、情感表達能力以及高速響應、多語言切換、模仿和實時翻譯等功能，都讓AI與人類的交互體驗達到了新高度。尤其引人注目的是其情感表達能力，它在朗讀詩歌時的“哭”聲，展現了AI對情感的理解與表達，引發對AI是否真正理解人類情感的深思。此外，GPT-4o的多模態能力，包括語音信號轉化、文本解析迴應及文本到語音轉換，大大提高了交互的自然度和流暢性。然而，這一技術的快速發展也引發了倫理、隱私安全、社會影響、教育應用以及就業影響等深層次問題的思考。GPT-4o不僅預示了AI技術在語音交互領域的重大突破，也爲我們描繪了AI深度融入日常生活的新未來。

Meta推“自學評估器”: 無需人工註釋NLP模型評估，優於 GPT-4 等常用的LLM

自然語言處理領域中，大型語言模型在複雜任務上表現出色，但模型評估高度依賴昂貴且耗時的人類註釋數據，且隨着模型進步，原有數據的效用下降，需持續收集新數據以維持評估的規模化與可持續性。Meta FAIR 研究團隊針對這一問題提出“Self-Taught Evaluator”（自學評估器），這一創新方法通過合成數據進行訓練，無需依賴人類註釋。通過生成對比的合成偏好對，模型自我評估與迭代改進，顯著提高了模型在 RewardBench 基準上的準確率，從75.4提升至88.7，甚至超越了使用人類註釋訓練的模型。經過多次迭代，最終模型在單次推理中達到88.3的準確率，多數投票下達到88.7，展現出強大的穩定性和可靠性。此方法爲 NLP 模型評估提供了可擴展且高效的解決方案，通過利用合成數據和迭代自我改進，有效應對了依賴人類註釋的挑戰，推動了語言模型的發展。

書生·浦語2.5開源超輕量1.8B、高性能20B多種參數版本

上海人工智能實驗室在2024年7月4日的WAIC科學前沿主論壇上推出了書生·浦語系列模型的新版本InternLM2.5。這個版本在複雜場景下的推理能力得到了全面增強，支持1M超長上下文，並能自主進行互聯網搜索及整合上百個網頁的信息。