在人工智能的不斷髮展中,擴散模型在推理能力上逐漸嶄露頭角,現如今,它們不再是自迴歸模型的 “跟隨者”。近日,來自加州大學洛杉磯分校(UCLA)和 Meta 的研究者們聯合推出了一種名爲 d1的新框架,該框架結合了監督微調(SFT)和強化學習(RL),使擴散模型具備更強的推理能力,包括數學理解、邏輯推理等。

image.png

這一創新的 d1框架通過兩階段的後訓練策略來提升掩碼大語言模型(dLLM)的性能。在第一階段,模型通過高質量的推理軌跡進行監督微調,從而掌握基礎知識和邏輯推理能力。接着,在第二階段,研究者們引入了一種名爲 diffu-GRPO 的新型策略梯度方法,這一方法專門針對掩碼 dLLM 進行了優化,大幅提高了推理效率。

與以往的研究相比,d1的提出旨在解決擴散模型在強化學習後訓練中的挑戰。傳統的自迴歸模型通過對生成序列的對數概率進行計算,從而優化模型的輸出,而 dLLM 則因其迭代生成的特性,面臨計算上的困難。爲此,研究團隊開發了一種高效的對數概率估計器,通過獨立計算每個 token 的概率,極大地減少了計算時間並提高了訓練效率。

image.png

在實驗中,研究者使用 LLaDA-8B-Instruct 作爲基礎模型,比較了 d1-LLaDA 與僅使用 SFT 或 diffu-GRPO 訓練的模型。結果顯示,d1-LLaDA 在多個數學和邏輯推理測試中表現優異,遠超基礎模型和單一方法。這一組合式的方法不僅增強了模型的推理能力,還展示了良好的協同效應。

隨着 d1框架的推出,擴散模型在推理任務中的表現將迎來新的提升,也爲後續的研究提供了廣闊的空間。研究者們相信,這一創新的框架將推動語言模型的進一步發展,助力更復雜的推理和邏輯任務的實現。

項目地址:https://top.aibase.com/tool/d1