4月13日,崑崙萬維天工團隊宣佈推出全新升級的Skywork-OR1(Open Reasoner1)系列模型,這是繼2025年2月發佈首款中文邏輯推理大模型Skywork-o1之後的又一力作。該系列模型在同等參數規模下實現了業界領先的推理性能,進一步突破了大模型在邏輯理解與複雜任務求解方面的能力瓶頸。
此次開源的Skywork-OR1系列模型包括三款高性能模型:Skywork-OR1-Math-7B聚焦數學領域的專項模型,同時也具備較強的代碼能力;Skywork-OR1-7B-Preview融合數學與代碼能力,兼具通用性與專業性;Skywork-OR1-32B-Preview則是面向更高複雜度任務、具備更強推理能力的旗艦版本。
在競賽編程任務中,通用模型Skywork-OR1-7B-Preview與Skywork-OR1-32B-Preview在LiveCodeBench數據集上均取得了同等參數規模下的最優性能。Skywork-OR1-32B-Preview表現尤爲突出,其代碼生成與問題求解能力已接近DeepSeek-R1(參數規模高達671B),在大幅壓縮模型體量的同時實現了卓越的性價比,充分展現出天工團隊訓練策略的先進性。
Skywork-OR1系列模型的顯著性能突破離不開天工團隊在模型後訓練階段的長期自研積累與技術深耕。在數據選擇和預處理方面,Skywork-OR1構建了一個高質量數學和代碼數據集,用於強化學習以提升模型在數學和代碼領域的推理能力。團隊根據可驗證性、正確性與挑戰性三個標準進行初步數據篩選,剔除無法自動驗證的證明類題目、有誤題目和缺少unit test的代碼問題。在數據過濾方面,爲避免“全對”或“全錯”現象對策略學習無效,每道題進行了多輪採樣並驗證答案,並基於模型表現過濾難度極端的題目。
此外,Skywork-OR1採用了Group Relative Policy Optimization (GRPO)進行模型訓練,並引入了訓練時數據優化、訓練Pipeline優化、訓練時模型探索和訓練Loss優化等多項優化措施。
Skywork-OR1系列開源地址:https://github.com/SkyworkAI/Skywork-OR1