Sakana AI 的 Transformer² 模型突破 LLM 限制，實現動態推理

Sakana AI 是一家專注於自然啓發算法的人工智能研究實驗室，近日推出了一種名爲 Transformer² （Transformer-squared）的創新自適應語言模型。該模型無需昂貴的微調，即可在推理過程中動態學習並適應新任務，這標誌着大型語言模型 (LLM) 技術發展的重要一步。

Transformer² 的核心創新在於其獨特的兩步動態權重調整機制。首先，它分析傳入的用戶請求，理解任務需求;然後，通過數學技巧，利用奇異值分解（SVD）將模型權重與任務需求對齊。通過有選擇地調整模型權重的關鍵組件，Transformer² 能夠實時優化性能，而無需耗時的重新訓練。這與傳統的微調方法形成鮮明對比，後者需要在訓練後保持參數靜態，或者採用低秩自適應 (LoRA) 等方法，僅修改一小部分參數。

Transformer 平方訓練和推理（來源:arXiv）

爲了實現動態調整，研究人員採用了奇異值微調（SVF）的方法。在訓練時，SVF 從模型的 SVD 組件中學習一組被稱爲 z 向量的技能表示。在推理時，Transformer² 通過分析提示來確定所需技能，然後配置相應的 z 向量，從而實現爲每個提示量身定製的響應。

測試結果顯示，Transformer² 在數學、編碼、推理和視覺問答等各種任務中均優於 LoRA 模型，且參數更少。更令人矚目的是，該模型還具有知識遷移能力，即從一個模型學習到的 z 向量可以應用到另一個模型，從而表明了廣泛應用的潛力。

Transformer-squared（表中的 SVF）與基礎模型和 LoRA 的比較(來源:arXiv)

Sakana AI 在其 GitHub 頁面上發佈了 Transformer² 組件的訓練代碼，爲其他研究人員和開發人員打開了大門。

隨着企業不斷探索 LLM 的應用，推理時定製技術正逐漸成爲主流趨勢。Transformer² 與 Google 的 Titans 等其他技術一道，正在改變 LLM 的應用方式，使用戶能夠根據其特定需求動態調整模型，而無需重新訓練。這種技術的進步將使 LLM 在更廣泛的領域內更加有用和實用。

Sakana AI 的研究人員表示，Transformer² 代表了靜態人工智能與生命智能之間的橋樑，爲高效、個性化和完全集成的人工智能工具奠定了基礎。

Sakana AI 的 Transformer² 模型突破 LLM 限制，實現動態推理

相關推薦

揭開MiniMax M2的神祕面紗：爲何選擇全注意力機制？

Meta 研究人員揭開大語言模型黑箱，修復 AI 推理缺陷

應對模型推理缺陷:蘋果MIND團隊加緊招聘AI人才

AI 驅動的“數字孿生”解放工作效率:初創公司 Viven 獲3500萬美元種子輪融資，解決員工“不在場”痛點

HKU和美團聯手破解AI數學難題：CodePlot-CoT讓大模型學會用代碼畫圖思考，性能飆升21%

Sakana AI 的 Transformer² 模型突破 LLM 限制，實現動態推理

相關推薦

揭開MiniMax M2的神祕面紗：爲何選擇全注意力機制？

​Meta 研究人員揭開大語言模型黑箱，修復 AI 推理缺陷

應對模型推理缺陷:蘋果MIND團隊加緊招聘AI人才

AI 驅動的“數字孿生”解放工作效率:初創公司 Viven 獲3500萬美元種子輪融資，解決員工“不在場”痛點

HKU和美團聯手破解AI數學難題：CodePlot-CoT讓大模型學會用代碼畫圖思考，性能飆升21%

Meta 研究人員揭開大語言模型黑箱，修復 AI 推理缺陷