近日,AI新銳團隊Thinking Machine發佈突破性訓練方法——在線策略蒸餾(On-Policy Distillation),讓小模型在特定任務上的訓練效率提升高達50至100倍。該成果一經公佈,即獲前OpenAI首席技術官Mira Murati親自轉發,引發學界與工業界高度關注。

image.png

融合強化學習與監督學習,打造“AI教練”新模式

傳統AI訓練長期面臨兩難:強化學習讓模型在試錯中自主探索,靈活但低效;監督微調直接提供標準答案,高效卻僵化。而在線策略蒸餾巧妙融合二者——如同爲學生模型配備一位“實時教練”:學生在自主生成內容的同時,由強大教師模型對其每一步輸出進行動態評分與引導,通過最小化兩者之間的KL散度,實現精準、穩定的知識遷移。

這一機制不僅避免了傳統蒸餾中“只學結果、不學過程”的弊端,還有效防止模型“走捷徑”或過擬合,顯著提升泛化能力。

image.png

實測效果驚人:7-10倍步驟縮減,100倍效率躍升

在數學推理任務中,研究團隊僅用原強化學習方法1/7到1/10的訓練步數,就讓8B小模型達到接近32B大模型的性能水平,整體計算成本降低高達兩個數量級。這意味着,資源有限的中小企業或研究團隊,也能高效訓練出媲美巨頭的專業模型。

更關鍵的是,該方法成功破解了企業AI落地中的“災難性遺忘”難題。在一項企業助理實驗中,模型在學習新業務知識的同時,完整保留了原有對話與工具調用能力——這爲持續迭代的行業AI系統提供了可行路徑。

image.png

核心團隊背景深厚,技術源自OpenAI實戰經驗

該研究由Kevin Lu主導,他曾在OpenAI領導多個關鍵項目,如今作爲Thinking Machine核心成員,將大模型訓練的前沿經驗反哺於高效小模型生態。其團隊認爲,在AI走向垂直化、場景化的今天,“小而專”的模型纔是商業落地的主力,而在線策略蒸餾正是打通這一路徑的關鍵引擎。

隨着算力瓶頸日益凸顯,行業正從“唯大模型論”轉向“高效智能”新範式。Thinking Machine的這項突破,不僅大幅降低AI開發門檻,更預示着一個屬於高性價比專業模型的時代正在加速到來。

論文:https://thinkingmachines.ai/blog/on-policy-distillation/