在人工智能領域,後訓練技術正逐漸成爲提升模型性能的重要手段。近日,艾倫人工智能研究所(AI2)發佈了 Tülu3系列模型,這是一套完全開源的先進語言模型,性能與 GPT-4o-mini 等閉源相媲美。Tülu3不僅包含了模型數據、代碼、訓練配方,還提供了評估框架,旨在推動開源模型後訓練技術的發展。
傳統上,僅經過預訓練的模型往往無法有效滿足實際應用需求,可能會產生有毒或危險的信息,且難以遵循人類指令。因此,後訓練階段如指令微調和人類反饋學習顯得尤爲重要。然而,如何優化後訓練過程仍然是一個技術難題,尤其是在提升模型某一能力的同時,可能會影響到其他能力。
爲了攻克這一難題,各大公司紛紛提升了後訓練方法的複雜性,嘗試多輪訓練和結合人工與合成數據,但大部分方法仍爲閉源。與之形成對比的是,Tülu3系列的發佈,突破了開源模型和閉源模型之間的性能差距,帶來了全新的訓練思路。
Tülu3的訓練過程分爲四個階段:數據構造、監督微調、偏好調整和可驗證獎勵的強化學習。
首先,研究人員聚焦於模型的核心技能,通過人工數據與合成數據的結合來構建訓練數據。
其次,進行監督式微調,以確保模型在特定技能上的表現不遜色於其他先進模型。
第三,採用直接偏好優化的方法來進一步提升模型的整體表現。最後,創新引入可驗證獎勵強化學習的方法,幫助模型更好地完成可驗證結果的任務。
Tülu3模型基於 Llama3.1的基礎上進行構建,在推理、數學、編程和指令遵循等領域表現優異。與其他開源和閉源模型相比,Tülu3的綜合能力在多個基準測試中表現出色,標誌着開源後訓練技術的一次重大進步。
論文鏈接:https://allenai.org/papers/tulu-3-report.pdf
Demo:https://playground.allenai.org/
劃重點:
🌟 Tülu3是 AI2推出的開源語言模型,與閉源模型如 GPT-4o-mini 性能相當。
🔧 後訓練技術至關重要,能夠有效提升模型在實際應用中的表現。
📊 Tülu3的訓練過程創新,分爲數據構造、監督微調、偏好調整和可驗證獎勵強化學習四個階段。