8B模型碾壓32B？Mira Murati新作“在線策略蒸餾”引爆AI訓練革命，成本直降90%！

當大模型軍備競賽讓算力成本高不可攀，前OpenAI首席技術官Mira Murati領銜的Thinking Machines Lab，正用一項名爲“在線策略蒸餾”（On-Policy Distillation）的突破性技術，爲行業按下“重啓鍵”。最新研究顯示:僅80億參數的小模型，經此方法訓練後，性能可達32B大模型的70%，而訓練成本驟降90%，效率提升50至100倍——這意味着，中小企業甚至個人開發者，也能以極低成本訓練出媲美巨頭的專用AI。

50-100倍效率躍升:150步幹翻1.8萬GPU小時

傳統強化學習（RL）訓練動輒需數萬步迭代與海量算力。以數學推理任務AIME'24爲例，純RL方法耗費17，920個GPU小時，準確率僅68%;而採用在線策略蒸餾的Qwen3-8B模型，僅150步訓練即達70%準確率，計算開銷幾乎可忽略。

元宇宙科幻賽博朋克繪畫 (3)大模型

其核心在於“每token密集反饋”機制:不同於RL僅在回合結束給予稀疏獎勵，在線蒸餾讓教師模型對學生生成的每一個token實時評分，提供連續、精準的指導信號。這不僅加速收斂，更有效防止長序列訓練中的“策略漂移”，讓小模型在有限資源下穩定輸出高質量結果。

破解“災難性遺忘”:學新知識不忘舊本領

AI模型在注入新知識時常“忘本”——實驗顯示，某模型經內部文檔微調後，指令遵循能力從85%暴跌至45%。而在線策略蒸餾通過實時軌跡採樣+教師逐步校正，在保留41%新知識的同時，將原有能力迅速恢復至83%，遠超傳統微調或離線蒸餾。

這一特性使其特別適合企業場景:模型可動態學習業務新規、產品文檔，而不丟失基礎對話、工具調用等核心能力，真正實現“持續進化”。

四步閉環:簡潔架構，普惠落地

該方法實現極爲輕量，僅需四步閉環:

部署教師模型（如32B大模型）作爲監督源;

學生模型生成響應軌跡;

教師計算每個token的對數概率;

以反向KL散度爲損失，優化學生參數。

無需複雜基礎設施，兼容現有蒸餾框架，即可實現“廉價而準確”的性能躍遷。論文指出，該技術可無縫擴展至代碼生成、多模態推理等任務，爲“教師-學生”協同訓練開闢新路徑。

Mira Murati的“降維打擊”:AI民主化的關鍵鑰匙

作爲OpenAI前CTO，Murati將大模型訓練的實戰經驗反哺於高效小模型生態。在AI安全與對齊日益重要的今天，在線策略蒸餾不僅提升效率，更通過可控的知識遷移，增強模型行爲的可預測性。

行業專家預測，該技術將極大推動開源模型與邊緣AI的發展——當8B模型能勝任32B任務，手機、IoT設備乃至本地服務器，都將成爲高性能AI的載體。智能，正從“雲端壟斷”走向“人人可及”。

這場由Murati掀起的訓練革命，或許正是AI從“巨頭遊戲”邁向“普惠工具”的轉折點。當小模型也能“聰明”如大模型，真正的智能民主化時代，纔剛剛開始。

8B模型碾壓32B？Mira Murati新作“在線策略蒸餾”引爆AI訓練革命，成本直降90%！

50-100倍效率躍升:150步幹翻1.8萬GPU小時

破解“災難性遺忘”:學新知識不忘舊本領

四步閉環:簡潔架構，普惠落地

Mira Murati的“降維打擊”:AI民主化的關鍵鑰匙

相關推薦

IBM 發佈 Granite4.0Nano 系列:爲邊緣 AI 量身打造的小型開源模型

Anthropic重磅研究：Claude能檢測並調節內部思維，自省能力初現！

TikTok推AI剪輯新工具“Smart Split”，助力創作者輕鬆剪輯與內容策劃

估值直指1萬億美元！OpenAI IPO進程加速，2027年或成AI史上最大IPO

微軟 Copilot 推出“應用構建器”和“自動化工作流”，用文字指令創建 App