傳統的大型語言模型(LLM)微調方法通常計算密集,且在處理多樣化任務時顯得靜態。爲了解決這些挑戰,Sakana AI 推出了一種名爲 Transformer² 的新型自適應框架。Transformer² 能夠在推理過程中實時調整LLM的權重,使其能夠適應各種未知的任務,就像章魚一樣靈活。
Transformer² 的核心在於一個兩階段機制:
第一階段,一個調度系統會分析用戶的查詢,識別任務的屬性。
第二階段,系統會動態混合多個“專家”向量。這些向量是使用強化學習訓練出來的,每個向量都專注於特定類型的任務,從而針對當前任務生成定製化的模型行爲。
這種方法與傳統的微調方法(如LoRA)相比,使用更少的參數,效率更高。Transformer² 在不同的LLM架構和模態(包括視覺語言任務)中都展現出了強大的適應性。
Transformer² 的關鍵技術
奇異值微調(SVF):這是一種新穎的參數高效微調方法,它通過提取和調整模型權重矩陣中的奇異值來實現。這種方法降低了過擬合的風險,減少了計算需求,並允許固有的組合性。通過在狹窄的數據集上使用強化學習訓練,可以獲得一組有效的特定領域“專家”向量,從而直接優化各個主題的任務表現。
自適應策略:在推理階段,Transformer² 採用三種不同的自適應策略來組合SVF訓練的專家向量。這些策略可以根據測試時的條件,動態調整LLM的權重,從而實現自我適應。
Transformer² 的優勢
動態適應性:Transformer² 能夠根據操作環境或內部狀態的變化來評估和修改自身的行爲,無需外部干預。
參數高效:與LoRA等方法相比,SVF 使用的參數更少,但性能更高。
模塊化能力:專家向量提供了模塊化的能力,而自適應策略則可以動態確定並組合最合適的向量來處理輸入任務。
強化學習優化:通過強化學習,可以直接優化任務表現,而無需依賴昂貴的微調程序和大型數據集。
跨模型兼容性:SVF 專家向量可以在不同的LLM模型之間進行遷移,這得益於其固有的排序結構。
實驗結果
在多個LLM和任務上進行的實驗表明,SVF 的性能始終優於傳統的微調策略(如LoRA)。
Transformer² 的自適應策略在各種未知的任務中都表現出了顯著的改進。
使用分類專家進行任務分類比直接使用提示工程的分類精度更高。
在不同的模型和任務組合中,自適應係數(αk)的貢獻是不均勻的。
未來展望
Transformer² 雖然取得了顯著的進展,但仍有進一步改進的空間。未來的研究可以探索模型合併技術,將不同的專業模型合併爲一個更強大的模型。此外,還可以研究如何擴展CEM方法,以應對更多的專業領域。
總而言之,Transformer² 代表了自適應LLM領域的一大飛躍,爲構建真正動態、自我組織的AI系統鋪平了道路。
論文地址:https://arxiv.org/pdf/2501.06252