近日,來自圖賓根埃利斯研究所、馬里蘭大學和勞倫斯利弗莫爾國家實驗室的研究團隊,開發出名爲 Huginn 的新型語言模型,該模型採用遞歸架構,顯著提升了推理能力。與傳統模型不同,Huginn 無需專門的“推理鏈”訓練,便可在神經網絡的“潛在空間”內自主推理,再輸出結果。
研究團隊開發出名爲 Huginn 的新型語言模型,該模型採用遞歸架構,顯著提升了推理能力。與傳統模型不同,Huginn 無需專門的“推理鏈”訓練,便可在神經網絡的“潛在空間”內自主推理,再輸出結果。
Huginn 模型在 Frontier 超級計算機上,使用4096個 AMD GPU 進行了大規模訓練。其訓練方法獨特,採用可變計算迭代次數,系統隨機決定重複計算模塊的次數,從而使模型能更好適應不同任務複雜度。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
測試顯示,Huginn 在數學和編程任務中表現突出,在 GSM8k 和 MATH 基準測試中,超越了參數規模和訓練數據量均高於自身數倍的開源模型。研究人員觀察到,Huginn 能夠根據任務複雜性調整計算深度,並在“潛在空間”內發展出推理鏈。分析表明,模型在“潛在空間”中形成複雜計算模式,例如解決數學問題時呈現圓形軌跡。這證明 Huginn能自主學習並以新穎方式進行推理。
研究人員認爲,儘管 Huginn 絕對性能尚待提升,但作爲概念驗證模型,其已展現驚人潛力。 隨着推理時間延長和能力提升,採用 Huginn 架構的大型模型有望成爲傳統推理模型的替代方案。 團隊強調,Huginn 的方法或能捕捉難以言表的推理類型,並計劃未來繼續研究,探索強化學習等擴展方法,以進一步提升模型性能。