在人工智能領域,UCLA 和 Meta AI 的研究人員聯合推出了一種名爲 d1的新框架,該框架通過強化學習技術顯著提升了擴散式大語言模型(dLLMs)的推理能力。雖然傳統的自迴歸模型如 GPT 受到了廣泛關注,但 dLLMs 憑藉其獨特的優勢,若能加強推理能力,將爲企業帶來新的效率和應用前景。
擴散式語言模型與自迴歸模型的生成方式截然不同。自迴歸模型如 GPT-4o 是通過逐個預測後續詞元生成文本。而擴散式語言模型最初應用於圖像生成,例如 DALL-E2和 Midjourney,其核心思想是逐步向圖像添加噪聲,直到完全變爲靜態,然後訓練模型從噪聲中逐步重構出清晰的圖像。將這一概念轉化爲語言模型並不容易,因爲文本是離散的單位。研究人員通過開發遮蔽擴散語言模型,解決了這一難題。這種模型在輸入文本中隨機遮蔽掉部分詞元,並訓練模型預測原始詞元,從而實現 “粗到細” 的生成過程,允許模型在每一步同時考慮整個上下文。
儘管 dLLMs 在計算效率上具備優勢,但在推理能力方面仍落後於自迴歸模型。爲此,強化學習成爲教會大語言模型複雜推理技能的重要手段。研究人員提出的 d1框架包含兩個階段的後期訓練過程:首先是監督微調(SFT),使用高質量推理示例的數據集對模型進行微調;其次是採用名爲 diffu-GRPO 的新算法進行強化學習訓練。這一算法爲 dLLMs 估計對數概率提供了一種高效方法,並在每次更新步驟中隨機遮蔽部分輸入提示,從而增強模型的學習效果。
研究人員在 LLaDA-8B-Instruct 模型上應用了 d1框架,通過 s1k 推理數據集進行微調,並在多個推理基準上進行測試。結果顯示,經過 d1處理的模型在各項任務中表現出色,尤其是在生成較長的響應時,模型顯示出自我修正和回溯的能力,表明其具備更強的解決問題的策略。
在企業應用方面,d1框架的引入將爲各種數字工作流程提供加速與自動化的可能性。企業在選擇自迴歸模型與擴散式模型時,可以根據自身在延遲或成本上的限制來決定,而 d1風格的擴散式模型在質量、速度和成本等方面具備更大的優勢。
論文:https://arxiv.org/abs/2504.12216
劃重點:
🌟 d1框架結合強化學習技術,顯著提升擴散式大語言模型的推理能力。
⚡ dLLMs 採用遮蔽生成方法,能更高效地處理上下文信息,降低延遲。
🚀 d1在多項推理基準測試中表現優異,展現出自我修正能力,適用於企業各種數字工作流程。