在人工智能領域,後訓練技術正逐漸成爲提升模型性能的重要手段。近日,艾倫人工智能研究所(AI2)發佈了 Tülu3系列模型,這是一套完全開源的先進語言模型,性能與 GPT-4o-mini 等閉源相媲美。Tülu3不僅包含了模型數據、代碼、訓練配方,還提供了評估框架,旨在推動開源模型後訓練技術的發展。

image.png

傳統上,僅經過預訓練的模型往往無法有效滿足實際應用需求,可能會產生有毒或危險的信息,且難以遵循人類指令。因此,後訓練階段如指令微調和人類反饋學習顯得尤爲重要。然而,如何優化後訓練過程仍然是一個技術難題,尤其是在提升模型某一能力的同時,可能會影響到其他能力。

爲了攻克這一難題,各大公司紛紛提升了後訓練方法的複雜性,嘗試多輪訓練和結合人工與合成數據,但大部分方法仍爲閉源。與之形成對比的是,Tülu3系列的發佈,突破了開源模型和閉源模型之間的性能差距,帶來了全新的訓練思路。

image.png

Tülu3的訓練過程分爲四個階段:數據構造、監督微調、偏好調整和可驗證獎勵的強化學習。

首先,研究人員聚焦於模型的核心技能,通過人工數據與合成數據的結合來構建訓練數據。

其次,進行監督式微調,以確保模型在特定技能上的表現不遜色於其他先進模型。

第三,採用直接偏好優化的方法來進一步提升模型的整體表現。最後,創新引入可驗證獎勵強化學習的方法,幫助模型更好地完成可驗證結果的任務。

Tülu3模型基於 Llama3.1的基礎上進行構建,在推理、數學、編程和指令遵循等領域表現優異。與其他開源和閉源模型相比,Tülu3的綜合能力在多個基準測試中表現出色,標誌着開源後訓練技術的一次重大進步。

論文鏈接:https://allenai.org/papers/tulu-3-report.pdf

Demo:https://playground.allenai.org/

劃重點:

🌟 Tülu3是 AI2推出的開源語言模型,與閉源模型如 GPT-4o-mini 性能相當。  

🔧 後訓練技術至關重要,能夠有效提升模型在實際應用中的表現。  

📊 Tülu3的訓練過程創新,分爲數據構造、監督微調、偏好調整和可驗證獎勵強化學習四個階段。