近日,來自上海交通大學和哈佛大學的研究團隊推出了一種全新的模型微調方法 ——LoRA-Dash。這個新方法聲稱比現有的 LoRA 方法更加高效,特別是在特定任務的微調中,它可以在參數量減少8到16倍的情況下,依然達到相同的效果。這無疑是對那些需要大量計算資源的微調任務的一次重大突破。
在大規模語言模型快速發展的背景下,微調特定任務的需求日益增長。然而,微調往往需要消耗大量的計算資源。爲了解決這一問題,研究團隊引入了參數高效微調(PEFT)策略,LoRA 就是一個典型的例子。通過實驗發現,LoRA 主要是通過捕捉一些預訓練中已學習到的特徵並放大,從而達到微調的效果。
然而,LoRA 的原論文在 “特定任務方向”(TSD)的定義上存在一些模糊之處。研究團隊對此進行了深入分析,首次對 TSD 進行了嚴格的定義,並明確了它的性質。TSD 代表着在微調過程中,模型參數中顯著變化的核心方向。
爲了解放 TSD 在實際應用中的潛力,研究人員提出了 LoRA-Dash,這一方法包含兩個關鍵階段。第一個階段是 “預啓動階段”,此時需要識別出任務特定的方向;第二個階段是 “衝刺階段”,利用之前識別的方向進行優化調整,使模型更好地適應特定任務。
實驗表明,LoRA-Dash 在多個任務上都超越了 LoRA 的表現,例如在常識推理、自然語言理解和主體驅動生成等任務中都取得了顯著的性能提升。這一成果顯示了 TSD 在下游任務中的有效性,充分釋放了高效微調的潛力。
目前,相關研究論文已公開,代碼也已開源,研究團隊希望能夠爲更多的研究者和開發者提供支持,讓大家在微調模型的過程中更加高效。
項目入口:https://chongjiesi.site/project/2024-lora-dash.html
** 劃重點:**
🌟 **LoRA-Dash 方法推出:** 新的模型微調方法 LoRA-Dash 應運而生,相較於 LoRA 更爲高效,算力需求大幅降低。
⚡ ** 明確特定任務方向:** 研究團隊對 “特定任務方向”(TSD)進行了嚴格的定義,闡明其在微調過程中的重要性。
🚀 ** 顯著實驗成果:** 實驗顯示 LoRA-Dash 在常識推理、自然語言理解等任務中表現優於 LoRA,展現了高效微調的巨大潛力。