AI2推出開源 Tülu3模型，性能與GPT-4o mini相當

在人工智能領域，後訓練技術正逐漸成爲提升模型性能的重要手段。近日，艾倫人工智能研究所（AI2）發佈了 Tülu3系列模型，這是一套完全開源的先進語言模型，性能與 GPT-4o-mini 等閉源相媲美。Tülu3不僅包含了模型數據、代碼、訓練配方，還提供了評估框架，旨在推動開源模型後訓練技術的發展。

傳統上，僅經過預訓練的模型往往無法有效滿足實際應用需求，可能會產生有毒或危險的信息，且難以遵循人類指令。因此，後訓練階段如指令微調和人類反饋學習顯得尤爲重要。然而，如何優化後訓練過程仍然是一個技術難題，尤其是在提升模型某一能力的同時，可能會影響到其他能力。

爲了攻克這一難題，各大公司紛紛提升了後訓練方法的複雜性，嘗試多輪訓練和結合人工與合成數據，但大部分方法仍爲閉源。與之形成對比的是，Tülu3系列的發佈，突破了開源模型和閉源模型之間的性能差距，帶來了全新的訓練思路。

Tülu3的訓練過程分爲四個階段:數據構造、監督微調、偏好調整和可驗證獎勵的強化學習。

首先，研究人員聚焦於模型的核心技能，通過人工數據與合成數據的結合來構建訓練數據。

其次，進行監督式微調，以確保模型在特定技能上的表現不遜色於其他先進模型。

第三，採用直接偏好優化的方法來進一步提升模型的整體表現。最後，創新引入可驗證獎勵強化學習的方法，幫助模型更好地完成可驗證結果的任務。

Tülu3模型基於 Llama3.1的基礎上進行構建，在推理、數學、編程和指令遵循等領域表現優異。與其他開源和閉源模型相比，Tülu3的綜合能力在多個基準測試中表現出色，標誌着開源後訓練技術的一次重大進步。

論文鏈接:https://allenai.org/papers/tulu-3-report.pdf

Demo:https://playground.allenai.org/

劃重點:
🌟 Tülu3是 AI2推出的開源語言模型，與閉源模型如 GPT-4o-mini 性能相當。
🔧 後訓練技術至關重要，能夠有效提升模型在實際應用中的表現。
📊 Tülu3的訓練過程創新，分爲數據構造、監督微調、偏好調整和可驗證獎勵強化學習四個階段。

AI2開源訓練方案Tülu 3，打破大模型後訓練技術壟斷

在開源AI領域，與大型科技公司的差距不僅僅體現在算力上。AI2（前Allen人工智能研究所）正通過一系列開創性舉措縮小這一鴻溝，其最新發布的Tülu3後訓練方案，讓"原始"大語言模型轉化爲實用AI系統變得觸手可及。與普遍認知不同，基礎語言模型在預訓練後並不能直接投入使用。事實上，後訓練過程纔是決定模型最終價值的關鍵環節。正是在這個階段，模型從一個"無所不知"卻缺乏判斷力的網絡，轉變爲具有特定功能導向的實用工具。長期以來，各大公司對後訓練方案諱莫如深。雖然任何

OpenAI 推出 “預測輸出” 功能：將 GPT-4o 速度提升約 5 倍

大型語言模型如 GPT-4o 和 GPT-4o-mini 的出現，推動了自然語言處理領域的重大進步。這些模型能夠生成高質量的響應，進行文檔重寫，以及提升各類應用的生產力。然而，這些模型面臨的一個主要挑戰就是響應生成的延遲。在更新博客或優化代碼的過程中，這種延遲可能會嚴重影響用戶體驗，尤其是在需要多次迭代的場景下，如文檔修改或代碼重構，用戶往往會感到沮喪。爲了應對這一挑戰，OpenAI 推出了 “預測輸出（Predicted Outputs ）” 功能，這一功能顯著減少了 GPT-4o 和 GPT-4o-mini 的延遲，

Adobe聯手MIT打造CausVid視頻生成模型，首幀延遲僅1.3秒！

還記得那些年，我們苦苦等待視頻生成模型渲染每一幀的漫長時光嗎?現在，告別龜速，迎接光速!Adobe和MIT強強聯手，推出一款名爲CausVid的“因果”視頻生成模型，它能以每秒9.4幀的速度實時生成高質量視頻，首幀延遲僅需1.3秒!這項突破性技術將徹底改變視頻內容創作方式，爲遊戲、虛擬現實和流媒體等領域帶來無限可能!傳統的視頻生成模型，就好比一位慢工出細活的“老工匠”，他們需要仔細分析整個視頻序列，才能生成每一幀畫面，因此生成速度非常慢。用戶必須耐心等待數分鐘甚至

面壁智能獲新一輪數億元融資將提速端側等大模型商業化佈局

北京面壁智能科技有限責任公司近期宣佈完成了新一輪數億元人民幣的融資。本輪融資由龍芯創投、鼎暉百孚、中關村科學城基金和賽富投資基金聯合領投，北京市人工智能產業投資基金與清科創投跟投，萬甲資本擔任獨家財務顧問。面壁智能計劃利用這筆資金加速端側AI大模型的商業化佈局，致力於提供同等參數下更高性能、更低能耗和更快速度的高效大模型服務，以深度服務行業併爲用戶創造具體可感知的價值。

AI2推出開源 Tülu3模型，性能與GPT-4o mini相當

相關推薦

AI 模型模擬賭博行爲，顯示出成癮跡象

AI2開源訓練方案Tülu 3，打破大模型後訓練技術壟斷

OpenAI 推出 “預測輸出” 功能：將 GPT-4o 速度提升約 5 倍

Adobe聯手MIT打造CausVid視頻生成模型，首幀延遲僅1.3秒！

面壁智能獲新一輪數億元融資將提速端側等大模型商業化佈局

​AI2推出開源 Tülu3模型，性能與GPT-4o mini相當

相關推薦

​AI 模型模擬賭博行爲，顯示出成癮跡象

AI2開源訓練方案Tülu 3，打破大模型後訓練技術壟斷

​OpenAI 推出 “預測輸出” 功能：將 GPT-4o 速度提升約 5 倍

Adobe聯手MIT打造CausVid視頻生成模型，首幀延遲僅1.3秒！

面壁智能獲新一輪數億元融資 將提速端側等大模型商業化佈局

AI2推出開源 Tülu3模型，性能與GPT-4o mini相當

AI 模型模擬賭博行爲，顯示出成癮跡象

OpenAI 推出 “預測輸出” 功能：將 GPT-4o 速度提升約 5 倍

面壁智能獲新一輪數億元融資將提速端側等大模型商業化佈局