人工智能領域再添一顆耀眼新星!近日,華爲諾亞方舟實驗室與香港大學自然語言處理組(HKU NLP Group) 聯合發佈了名爲 Dream7B 的全新語言模型。這款模型被譽爲“迄今爲止最強大的開源擴散大型語言模型”。

Dream7B 的問世,不僅在性能上超越了現有的擴散語言模型,更在通用能力、數學、代碼以及規劃能力上,比肩甚至超越了同等規模的頂尖自迴歸(AR)語言模型。這一突破性的進展,預示着文本生成領域或將迎來新的技術範式。

QQ_1744337169007.png

顛覆傳統:擴散模型賦能更強語言理解與生成

長期以來,以 GPT-4、DeepSeek、Claude 爲代表的主流大型語言模型都依賴於自迴歸(AR)架構,即按照從左到右的順序逐個生成文本。儘管這類模型取得了巨大成功,但在複雜推理、長期規劃以及維持長文本連貫性方面仍面臨挑戰。

QQ_1744337189799.png

Dream7B 的核心在於採用了離散擴散模型(Discrete Diffusion Models, DMs) 的創新架構。與 AR 模型不同,擴散模型從完全噪聲的狀態出發,通過逐步精煉的方式並行生成完整的文本序列。這種根本性的架構差異帶來了諸多顯著優勢:

  • 雙向語境建模,實現更強的全局一致性:擴散模型能夠同時考慮文本序列中雙向的信息,從而更全面地理解語境,生成連貫性更強的文本。
  • 靈活可控的生成能力:通過迭代式的優化過程,Dream7B 能夠實現更靈活、更可控的文本生成。
  • 潛在的採樣加速能力:新的架構和訓練目標有望實現從噪聲到數據的更高效直接映射,從而加速模型推理過程。

近年來,擴散模型在語言任務中的潛力日益凸顯,例如 DiffuLLaMA 和 LLaDA 等模型已經將擴散語言模型擴展到70億參數。此次發佈的 Dream7B 正是在這一趨勢下的又一里程碑式成果。

性能卓越:多項任務比肩頂尖自迴歸模型

Dream7B 在多個關鍵能力上展現出驚人的實力:

  • 大幅超越現有擴散語言模型
  • 在通用、數學和代碼能力上,與同等規模的頂級自迴歸模型不相上下,甚至有所超越
  • 規劃能力方面表現突出,通過在 Countdown 和 Sudoku 等任務上的評估,Dream7B 顯著優於同等規模的其他模型,有時甚至能匹敵參數量遠超自身的最新 DeepSeek V3。這表明擴散模型在解決需要多重約束或達成特定目標的問題時更具優勢。

獨具匠心:創新技術提升模型效能

Dream7B 的成功並非偶然,其背後蘊含着研發團隊的諸多創新:

  • 借鑑自迴歸模型進行權重初始化:研究團隊發現,利用現有的自迴歸模型(如 Qwen2.57B 和 LLaMA3)的權重作爲擴散模型的初始參數,能夠顯著提升訓練效率,尤其是在訓練初期。
  • 上下文自適應的 Token 級噪聲重調度機制:Dream7B 能夠根據每個 Token 的上下文信息量動態調整其噪聲水平,從而實現更精細化的學習。

靈活推理:打破生成順序限制

與自迴歸模型固定的從左到右生成方式不同,Dream7B 的擴散模型架構賦予了其更靈活的推理能力:

  • 任意順序生成:Dream7B 不受生成順序的限制,可以按照任意順序合成輸出,從而更好地適應不同的用戶查詢。例如,它可以靈活地進行文本補全和中間內容填充。
  • 質量-速度可調:通過調整擴散步驟的數量,用戶可以在生成速度和質量之間進行靈活的權衡。較少的步驟可以實現更快的生成,但質量稍低;而更多的步驟則能 menghasilkan 更高質量的輸出,但計算成本更高。

目前,Dream7B 已經開源了其基礎模型和指令微調模型的權重,代碼也已在 GitHub 上公開。這無疑將極大地促進擴散模型在自然語言處理領域的進一步研究和應用。華爲諾亞方舟實驗室和香港大學自然語言處理組也表示,未來將繼續探索擴散語言模型更先進的後訓練方法。

產品入口:https://top.aibase.com/tool/dream-7b