AI模型架構正在經歷一場深刻變革。擴散語言模型憑藉其並行生成和高效推理能力,正在成爲業界關注的焦點。10月9日,AI研究機構Radical Numerics正式發佈RND1-Base,這是迄今爲止最大規模的開源擴散語言模型,參數規模達到30B,其中活躍參數爲3B,採用稀疏專家混合架構。該模型不僅在基準測試中表現出色,還開源了完整權重、訓練配方和推理代碼,旨在加速擴散語言模型領域的後訓練與推理研究。

RND1-Base基於Qwen3-30BA3B的自迴歸基礎模型,通過簡單的連續預訓練實現了向擴散範式的無縫轉型。轉換過程採用雙向掩碼機制和特定於層的學習率以保留原有知識,並使用高達8M標記的大批量訓練確保穩定性,最終在500B標記上完成預訓練。這一高效方案避免了從零開始訓練帶來的資源浪費,體現了Radical Numerics在模型重用方面的創新思路。

與傳統自迴歸語言模型逐個生成token的順序模式不同,RND1將文本生成視作類似圖像去噪的過程,從噪聲中並行精煉整個序列,支持雙向注意力機制。這不僅提升了生成的靈活性和可控性,還顯著降低了推理延遲,特別適合複雜推理和代碼生成任務。

image.png

在通用基準測試中,RND1-Base展現出強勁實力,超越了Dream-7B和LLaDA-8B等開源擴散語言模型前輩。具體成績包括MMLU多任務語言理解57.2%、GSM8K數學推理72.1%、MBPP代碼生成51.3%。這些指標覆蓋推理、STEM和編程領域,證明該模型在保持自迴歸基礎優勢的同時,實現了擴散架構的性能提升。

RND1的稀疏專家混合設計在30B總參數中僅激活3B參數,優化了計算效率,適合大規模部署。該模型尚未進行後訓練,貪婪採樣時可能偶爾出現重複,但開源代碼已集成FlashInfer和SGLang後端,支持快速推理迭代。

Radical Numerics將自身定位爲下一代AI實驗室,專注於構建遞歸自我改進引擎。RND1正是這一願景的產物,通過自動化AI研究平臺,讓模型參與優化下一代AI。該團隊由來自DeepMind、Meta、Liquid和斯坦福等頂尖機構的研究員與工程師組成,目標是讓AI自主設計AI,推動科學與工業發現加速。

開源RND1的目的在於激發社區探索擴散語言模型的推理優化和後訓練潛力。當前,擴散模型在語言領域的應用正從實驗階段轉向實用階段,特別是在並行生成長序列任務方面展現出優勢。業內預計,此舉將刺激更多自迴歸模型向擴散模型轉換的實驗,填補開源生態在高效生成模型方面的空白。

儘管RND1在規模和性能上處於領先地位,但擴散模型的泛化能力與內存開銷仍需進一步優化。未來結合多目標微調或混合架構,有望進一步釋放其潛力。Radical Numerics已開放招聘,歡迎AI從業者加入這一前沿探索。

這次突破標誌着擴散語言模型從理論探索走向工程實踐的重要轉折點。通過開源如此大規模的擴散模型,Radical Numerics不僅爲研究社區提供了寶貴的工具,也爲AI自我改進和遞歸優化開闢了新的可能性。隨着更多研究者參與到這一領域,擴散語言模型或將成爲下一代AI架構的重要方向。