復旦攜手騰訊推出說話人視頻生成工具DICE-Talk，備情感表達

由復旦大學與騰訊聯合研發的DICE-Talk說話人視頻生成工具於近日正式發佈，以其卓越的情感表達能力和逼真的人物表現引發行業熱議。AIbase通過整合社交媒體最新動態及公開信息，爲您深度解析這一技術突破的亮點與潛力。

DICE-Talk的核心創新在於其身份-情感分離處理機制。通過將說話人的身份特徵（如面部細節、膚色）與情感表達(表情、語氣)解耦，DICE-Talk確保在情感變化時人物外觀保持高度一致，避免了傳統生成工具中常見的“表情跳變”問題。其協同情感處理技術進一步實現了不同情感間的自然過渡，例如從喜悅到驚訝的動態切換，呈現出接近真人表演的流暢效果。

DICE-Talk 的核心在於其能夠解構身份信息並協同情感生成。這意味着，該技術不僅能夠保留人物的特徵，還能根據需求賦予其不同的情感表現，如快樂、生氣、驚訝等。用戶只需上傳一張肖像圖片和一段音頻，系統便可自動生成相應情感的動態視頻。

DICE-Talk 的生成視頻展示了多種情感狀態，包括中性、快樂、生氣和驚訝等。每種情感表現都具有高度的真實性和表現力，用戶可以通過簡單的操作，獲得生動的情感肖像，適用於影視製作、遊戲開發以及社交媒體等多個領域。

爲了順利運行 DICE-Talk，建議用戶配備至少20GB 顯存的 GPU，並使用獨立的 Python3.10環境。同時，用戶需確保安裝 FFmpeg 及相應版本的 PyTorch。安裝完成後，用戶可以通過簡單的命令運行演示，體驗技術帶來的視覺盛宴。

使用 DICE-Talk 非常簡單。用戶只需上傳一張圖像和一段音頻，並選擇所需的情感類型，系統將生成對應的視頻。用戶還可以調整身份保持和情感生成的強度，滿足個性化需求。此外，DICE-Talk 還提供了圖形用戶界面，使操作更加直觀和友好。

項目：https://github.com/toto222/DICE-Talk

Nest 音響現藍紫漸變燈光，Google Gemini 助手正在測試中

近期，許多用戶在 Reddit 上分享了他們的 Nest Audio 揚聲器顯示出藍色和紫色漸變燈光的體驗，這與平時的白色 LED 燈光形成了鮮明的對比。這一新變化引起了廣泛的關注，許多用戶紛紛表示也看到了這種色彩變化。根據9to5Google 的報道，谷歌正在逐步推出其新一代 AI 助手 ——Gemini，並計劃逐步取代現有的 Google Assistant。谷歌自去年12月開始在 Nest 智能揚聲器上進行 Gemini 的測試。參與測試的用戶需要先註冊 Google Home 公共預覽，並選擇參與實驗性 AI 功能，以便能夠體驗到這一新助手的特色。G

Anthropic獲得25億美元信貸支持，年收入激增至20億美元

近日，人工智能公司 Anthropic 宣佈獲得了一項高達25億美元的五年期循環信貸額度，此舉旨在增強公司的財務流動性並推動業務擴展。這家由前 OpenAI 高管創立的公司，其聊天機器人 Claude 自2023年推出以來，迅速在市場上獲得了廣泛關注和認可。據悉，Anthropic 的估值已達615億美元，而在2023年第一季度，其年化收入更是翻倍至20億美元，顯示出公司在競爭激烈的 AI 領域中正以驚人的速度成長。爲了進一步鞏固市場地位，Anthropic 的技術將被應用於亞馬遜即將推出的 Alexa 新功能中，預示着該公司

研究稱， AI 能獨立自發組成社會，形成自己的規範和習俗

近日，倫敦大學城市學院與哥本哈根信息技術大學的研究人員進行了一項引人注目的實驗，結果表明，人工智能（AI）能夠在沒有外界干預的情況下，自發形成類似人類的社會規範和習俗。這項研究的成果已於5月14日發表在《Science Advances》雜誌上，標誌着 AI 羣體行爲研究的新進展。圖源備註：圖片由AI生成，圖片授權服務商Midjourney在這項實驗中，研究團隊將多種 AI 智能體置於去中心化的交流環境中，模擬了人類社會中的羣體互動。研究者將這些 AI 模型分成小組，規模從24個到200個不等，

杭州機場推出全國首個AI大模型智能呼叫中心，服務體驗再升級

杭州蕭山國際機場於5月16日成功啓用全國民航首個基於 AI 大模型的智能呼叫中心，標誌着其96299熱線進入了一個全新的智能化時代。這一升級採用了前沿的 DeepSeek 大模型技術，旨在提升客戶服務的效率和質量。自2014年首次上線以來，96299熱線爲旅客提供24小時不間斷的接聽與在線諮詢服務。經過此次升級，AI 語音機器人能夠應對高峯期的來電量，有效分擔人工服務壓力，並自動實現智能問答。結合情感計算和多模態知識圖譜等技術，這個智能呼叫中心成功構建了行業首個 “感知 - 決策 - 交

Stability AI與Arm推出手機級音頻生成AI:7秒內創建11秒立體聲

Stability AI和Arm聯合發佈了一款名爲"穩定音頻開放小型"（Stable Audio Open Small）的緊湊型文本轉音頻模型，該模型能夠在約7秒內生成長達11秒的高質量立體聲音頻片段，且經過優化可在智能手機等移動設備上運行。這一突破基於加州大學伯克利分校研究人員開發的"對抗相對對比"（Adversarial Relativistic-Contrastive，ARC）技術。該模型在高端硬件如Nvidia H100GPU上的表現更爲驚人，能夠在僅75毫秒內完成44kHz立體聲音頻的生成，實現了近乎實時的音頻合成能力。與去年發佈的包含11億參數的原始Stable Audio