音頻同步與視頻編輯！騰訊混元開源一致性視頻生成工具HunyuanCustom

騰訊開源的一致性視頻生成工具 “HunyuanCustom”，該模型不僅能生成生動的視頻內容，還能實現音頻與口型的同步。這一創新技術的發佈，標誌着在深度僞造視頻領域的一次重要進步。

一圖生成，深度僞造不再遙遠

HunyuanCustom 的最大亮點在於用戶只需提供一張圖像，就能創造出深度僞造風格的視頻。這一功能可以簡化視頻製作流程，用戶不再需要多張圖片作爲參考，極大地提升了視頻內容生成的便利性。

HunyuanCustom 不僅限於簡單的視頻生成。該模型還具備處理多種場景的能力，包括單一角色的模擬和虛擬試穿。用戶可以將單個角色與不同的物體結合，創造出豐富多樣的場景。這一特性將爲遊戲開發、虛擬試衣等領域帶來新的可能性。

音頻同步，提升沉浸感

在音頻方面，HunyuanCustom 利用了複雜的 LatentSync 系統，實現了音頻與口型的精準同步。這一技術的實現，使得視頻中的角色在說話時，其嘴部動作與發出的聲音完美匹配，從而提升了觀衆的沉浸感和真實性。

雖然目前尚未推出英文示例，但已有的展示效果表明，該技術的表現相當優秀，未來有望在更多語言中得到應用。

視頻編輯，拓展應用邊界

HunyuanCustom 還具備強大的視頻編輯功能。通過視頻到視頻（V2V）編輯，用戶可以智能地替換現有視頻中的部分內容，僅需一張參考圖像即可完成。這一功能爲用戶提供了更多創意空間，使得視頻編輯過程更加簡便高效。

在演示中，可以看到系統如何通過遮罩技術，僅對目標對象進行替換，而不影響周圍環境，達到了良好的整合效果。這一特性將吸引大量創作者探索其在內容製作中的應用。

HunyuanCustom 的推出，爲深度僞造技術的應用開闢了新的視野。儘管在某些方面仍有提升空間，但其獨特的功能和應用潛力無疑將推動視頻製作的創新。隨着這一技術的進一步發展，我們期待在創意產業中見證更多精彩的作品。

官網：https://aivideo.hunyuan.tencent.com/

字節跳動開源深度研究框架DeerFlow

字節跳動宣佈正式開源其全新研發的社區驅動深度研究框架 DeerFlow，這一舉措迅速引發了AI研究領域的廣泛關注。作爲一款基於LangChain和LangGraph框架構建的智能研究助手，DeerFlow將語言模型與網絡搜索、爬蟲、Python代碼執行等專業工具深度整合，爲自動化研究和內容創作提供了全新可能。DeerFlow核心功能:智能化與人機協作的完美結合DeerFlow旨在通過AI技術提升研究效率，同時強調“人在迴路”（Human-in-the-loop）理念，支持用戶隨時介入調整研究計劃。其主要功能包括:動態任務迭代:DeerFlow能夠

夸克即將發佈“深度搜索Pro” 能力比肩全球頂尖DeepResearch產品

近日，夸克升級AI超級框，全新發布“深度搜索”產品，持續爲用戶“高搜商”地解決多樣化複雜問題。據記者瞭解，夸克還將推出“深度搜索Pro”，進一步解決用戶在專業領域中遇到的複雜任務，能力可以比肩全球頂尖的DeepResearch產品。目前，來自國外的DeepResearch產品都以付費訂閱爲主，國內也幾乎沒有同類產品，很多用戶無法享受到AI帶來的效率提升。據悉，夸克即將推出“深度搜索Pro”，通過“思考、搜索、驗證、再思考”的產品設計，擁有更強大的分析能力、搜索策略和權威數據，

OpenAI o4-mini攜強化微調正式上線，AI專業能力邁向專家級

5月8日，OpenAI o4-mini攜強化微調正式上線。這兩項技術的結合徹底改變了AI專業化的成本結構和技術門檻，讓企業能以少量訓練數據將通用AI迅速轉變爲特定領域的專家系統。從通用智能到專家級AI的跨越式飛躍強化微調技術作爲此次發佈的核心亮點，標誌着OpenAI在定製化模型領域取得重大突破。與傳統的監督式微調不同，RFT基於強化學習算法，通過獎勵驅動的訓練循環優化模型表現。這一方法無需開發者提供固定的目標輸出，而是利用評分器（Grader）評估模型回答質量，引導AI學習複雜任務

Gemini API推出隱式緩存功能，開發者成本降低75%

Gemini API推出隱式緩存（Implicit Caching）功能，爲開發者帶來顯著的成本優化體驗。新功能無需開發者手動創建緩存，當請求與先前請求共享共同前綴時，系統將自動觸發緩存命中，提供高達75%的Token折扣。此更新已覆蓋Gemini2.5Pro和2.5Flash模型，進一步提升了AI開發的成本效益。官方詳情可參考:https://developers.googleblog.com核心機制:自動緩存與動態折扣隱式緩存功能通過識別請求中的共同前綴，自動複用先前處理過的上下文數據，減少重複計算的Token消耗。例如，開發者在構建聊天機器人或代碼分

英偉達開源新一代OCR代碼推理 AI 模型，超越 OpenAIo3-Mini表現