英偉達與港大等合作推出快速 KV 緩存，助力擴散模型提速

近日，英偉達、香港大學與麻省理工學院的研究團隊聯合發佈了一種名爲 Fast-dLLM 的創新技術，旨在提升擴散語言模型的推理效率。與傳統的自迴歸模型不同，擴散語言模型採用逐步去除文本噪聲的方式生成文本，因此能夠在一次迭代中生成多個單詞，整體效率更高。然而，在實際應用中，許多開源擴散語言模型的推理速度仍然不如自迴歸模型，主要受限於缺乏鍵值（KV）緩存支持以及並行解碼時生成質量下降。

KV 緩存是自迴歸模型中常用的加速推理技術，通過存儲和重用之前計算的注意力狀態，顯著減少重複計算，從而提高生成速度。但由於擴散語言模型採用雙向注意力機制，直接應用 KV 緩存並不容易。Fast-dLLM 架構的創新之處在於將文本生成過程劃分爲多個塊，每個塊包含一定數量的 token。通過這種塊狀生成方式，模型可以在生成一個塊之前預先計算並存儲其他塊的 KV 緩存，進而避免重複計算。

儘管 KV 緩存機制有效提升了推理速度，但在並行解碼時，生成質量往往會下降。這是因爲擴散型模型在解碼時假設條件獨立性，然而標記之間可能存在複雜的依賴關係。爲了解決這一問題，Fast-dLLM 提出了一種基於置信度的平行解碼策略。在每個解碼步驟中，模型會計算每個標記的置信度，並選擇置信度超過閾值的標記進行解碼。這種策略確保了高置信度的情況下能夠安全進行並行解碼，從而維持生成文本的連貫性和準確性。

爲驗證 Fast-dLLM 的性能，研究人員在 NVIDIA A10080GB GPU 上對 LLaDA 和 Dream 兩種擴散語言模型進行了全面評估，涵蓋了數學推理和代碼生成等任務。在 KV 緩存機制的測試中，塊大小爲32時，模型的吞吐量達到了54.4tokens/s，準確率爲78.5%。並行解碼測試中，採用動態閾值策略優於固定 token 數基線。整體來看，LLaDA 模型在 GSM8K 任務中僅用 KV Cache 加速3.2倍，並行解碼加速2.5倍，兩者結合的速度提升達到8.1倍，生成長度達到1024時的端到端加速更是高達27.6倍。所有測試結果顯示，Fast-dLLM 在加速的同時，保持了生成質量的穩定。

劃重點:
🌟 Fast-dLLM 技術由英偉達和香港大學等機構合作開發，提升了擴散語言模型的推理速度。
⚡ KV 緩存機制通過存儲和重用注意力狀態，減少了冗餘計算，顯著加快生成效率。
📈 基於置信度的平行解碼策略確保了文本生成的連貫性與準確性，提升了模型整體性能。

OpenAI 即將推出顛覆性AI瀏覽器，直逼谷歌Chrome

OpenAI計劃推出AI瀏覽器挑戰谷歌Chrome，該產品基於Chromium開發，整合ChatGPT技術，擁有4億潛在用戶。其創新點在於AI代理功能可自動完成網頁操作，減少傳統瀏覽步驟。此舉可能威脅谷歌66%的市場份額及其廣告生態系統。目前行業正興起AI瀏覽器熱潮，OpenAI憑藉技術優勢試圖搶佔先機，若成功將動搖谷歌在用戶數據和廣告投放領域的主導地位。

YouTube打擊AI“不真實”內容，遏制虛假信息氾濫

YouTube將於7月15日更新盈利政策，重點打擊AI生成的"不真實"內容。新規將更嚴格界定原創內容標準，主要針對批量生產的低質量AI內容，如AI配音視頻、虛假新聞和AI音樂頻道等。平臺表示這是對現有政策的"小更新"，但實際反映了AI技術降低內容製作門檻帶來的挑戰。雖然創作者擔心影響反應視頻等內容的收益，YouTube強調這類垃圾內容本就違規。此次調整旨在維護平臺質量，防止AI垃圾內容損害YouTube的聲譽和價值。

國內團隊創造歷史！“人類最後的考試” 首次得分突破30分，AI競爭再升級！

上海交大與深勢科技團隊開發的X-Master智能體系統在超高難度AI測試"HLE"中創下32.1分新紀錄，首次突破30分大關。該系統採用工具增強型推理和多智能體協作架構，能模擬人類研究思維，通過代碼執行和反饋循環優化決策。其分散-堆疊式工作流讓多個智能體並行解題、評估改進，最終整合最優方案，尤其在生物醫學領域表現突出。該成果已開源，推動AI領域發展。

崑崙萬維重磅發佈 Skywork-R1V 3.0：跨模態推理能力直逼人類專家！

崑崙萬維發佈開源多模態模型Skywork-R1V3.0，在多模態推理能力上達到人類初級專家水平。該模型基於強化學習策略，僅用1.2萬條微調樣本和1.3萬條強化學習樣本就實現卓越性能。在MMMU評測中以76分超越Claude-3.7-Sonnet和GPT-4.5等閉源模型，在物理、邏輯和數學推理領域表現尤爲突出，如物理推理獲52.8分、邏輯推理59.7分、數學評測最高77.1分。其開源特性將推動AI技術發展。

香港首個AI問答系統上線，帶你暢遊智能時代

香港維納智能科技發佈首個免費大模型協同問答系統"QueWi"及兩款旗艦應用，突破AI發展瓶頸。公司開發了SYNC、ToM等核心技術，解決行業交互數據短缺問題。測試顯示其系統性能超越國際主流AI模型，時事溯源能力達94%，本地名詞識別精確度超93%。這一創新將推動香港及全球AI技術應用，助力實現"智能生活"願景。