近年來,訓練大型語言模型(LLM)變得越來越昂貴且複雜,只有少數大型科技公司具備相應的計算資源。不過,谷歌最近推出了一種名爲 SALT(小模型輔助大模型訓練)的新方法,這一創新可能會徹底改變 AI 訓練的格局。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
根據谷歌研究和 DeepMind 的最新研究論文,“一點幫助就能走得更遠:通過利用小型語言模型實現高效的 LLM 訓練”,SALT 引入了一種新的兩階段訓練過程。這種方法不僅高效,而且更具實用性,改變了我們以往的訓練方式。
SALT 的第一階段是知識蒸餾。在這一階段中,小型語言模型(SLM)充當教師,將其理解知識傳遞給更大的模型。小型模型通過 “軟標籤” 來分享其學習到的知識,幫助大型模型在學習的初期掌握基礎概念。這個階段尤其適用於小型模型在學習區域具有較強預測信心的 “簡單” 任務。
第二階段是自我監督學習。大型模型在這一階段開始獨立學習,專注於掌握更復雜的模式和挑戰性任務。這個轉變需要經過精心設計的策略,包括線性衰減和線性比例衰減,這確保了大型模型能夠平穩過渡,逐步減少對小型模型的依賴。
谷歌研究人員在實驗中發現,使用一個15億參數的小型模型訓練一個28億參數的大型模型,在 “堆棧數據集” 上的訓練時間縮短了28%。在經過微調後,大型模型在數學問題的準確率從31.84% 提升至34.87%,閱讀理解的準確率也從63.7% 提高到67%。這種新方法不僅提升了訓練效率,還在性能上取得了顯著進步。
SALT 的出現有望降低 AI 開發的門檻,使得許多原本受限於資源的小型研究機構和公司也能參與到 AI 模型的開發中。研究和開發的機會將更加普及,可能會催生出更多獨特和專業化的 AI 解決方案,帶動相關領域的創新與應用。
劃重點:
🌟 採用 SALT 方法可以將大型模型的訓練時間縮短28%,極大降低了計算成本。
📈 使用小型模型進行知識蒸餾,能夠顯著提升大型模型在複雜任務上的表現。
🔍 SALT 的創新可能會降低 AI 開發的門檻,使得更多小型機構能夠參與到 AI 研究中。
