月之暗面研究員Flood Sung近日發表萬字長文,首次詳細披露了k1.5模型的研發思路,並就OpenAI o1模型帶來的技術啓示進行深度反思。
據Flood Sung介紹,Long-CoT(長鏈條思維)的重要性其實早在一年多前就已被月之暗面聯合創始人Tim周昕宇驗證。通過使用小型模型訓練多位數運算,並將細粒度運算過程轉化爲長鏈條思維數據進行SFT(有監督微調),就能獲得顯著效果。

然而,受限於成本考慮,月之暗面此前將重點放在了Long Context(長文本輸入)的優化上。Flood Sung解釋道,Long Context主要處理輸入端,藉助Prefill預填充和Mooncake技術,可以較好地控制成本和速度。相比之下,Long-CoT側重輸出端,需要更高的成本和更長的處理時間。
但OpenAI o1的發佈讓團隊重新思考了技術方向的優先級。"性能纔是最重要的,"Flood Sung表示,"成本和速度會隨着技術進步不斷優化,關鍵是要先實現突破性能。"基於這一認識,月之暗面已開始全面推進Long-CoT研究,致力於讓模型實現更接近人類的自由思考能力。
此次技術解密文章的發佈,標誌着月之暗面已開始系統性地對標o1模型,並在相關領域展開實質性研究。
解密o1破解過程的萬字長文:https://mp.weixin.qq.com/s/sJmT-tM3A-mglZ1d4OI80A
