當大模型軍備競賽讓算力成本高不可攀,前OpenAI首席技術官Mira Murati領銜的Thinking Machines Lab,正用一項名爲“在線策略蒸餾”(On-Policy Distillation)的突破性技術,爲行業按下“重啓鍵”。最新研究顯示:僅80億參數的小模型,經此方法訓練後,性能可達32B大模型的70%,而訓練成本驟降90%,效率提升50至100倍——這意味着,中小企業甚至個人開發者,也能以極低成本訓練出媲美巨頭的專用AI。

50-100倍效率躍升:150步幹翻1.8萬GPU小時

傳統強化學習(RL)訓練動輒需數萬步迭代與海量算力。以數學推理任務AIME'24爲例,純RL方法耗費17,920個GPU小時,準確率僅68%;而採用在線策略蒸餾的Qwen3-8B模型,僅150步訓練即達70%準確率,計算開銷幾乎可忽略。

元宇宙 科幻 賽博朋克 繪畫 (3)大模型

其核心在於“每token密集反饋”機制:不同於RL僅在回合結束給予稀疏獎勵,在線蒸餾讓教師模型對學生生成的每一個token實時評分,提供連續、精準的指導信號。這不僅加速收斂,更有效防止長序列訓練中的“策略漂移”,讓小模型在有限資源下穩定輸出高質量結果。

破解“災難性遺忘”:學新知識不忘舊本領

AI模型在注入新知識時常“忘本”——實驗顯示,某模型經內部文檔微調後,指令遵循能力從85%暴跌至45%。而在線策略蒸餾通過實時軌跡採樣+教師逐步校正,在保留41%新知識的同時,將原有能力迅速恢復至83%,遠超傳統微調或離線蒸餾。

這一特性使其特別適合企業場景:模型可動態學習業務新規、產品文檔,而不丟失基礎對話、工具調用等核心能力,真正實現“持續進化”。

四步閉環:簡潔架構,普惠落地

該方法實現極爲輕量,僅需四步閉環:

部署教師模型(如32B大模型)作爲監督源;

學生模型生成響應軌跡;

教師計算每個token的對數概率;

以反向KL散度爲損失,優化學生參數。

無需複雜基礎設施,兼容現有蒸餾框架,即可實現“廉價而準確”的性能躍遷。論文指出,該技術可無縫擴展至代碼生成、多模態推理等任務,爲“教師-學生”協同訓練開闢新路徑。

Mira Murati的“降維打擊”:AI民主化的關鍵鑰匙

作爲OpenAI前CTO,Murati將大模型訓練的實戰經驗反哺於高效小模型生態。在AI安全與對齊日益重要的今天,在線策略蒸餾不僅提升效率,更通過可控的知識遷移,增強模型行爲的可預測性。

行業專家預測,該技術將極大推動開源模型與邊緣AI的發展——當8B模型能勝任32B任務,手機、IoT設備乃至本地服務器,都將成爲高性能AI的載體。智能,正從“雲端壟斷”走向“人人可及”。

這場由Murati掀起的訓練革命,或許正是AI從“巨頭遊戲”邁向“普惠工具”的轉折點。當小模型也能“聰明”如大模型,真正的智能民主化時代,纔剛剛開始。