斯坦福大學和華盛頓大學的研究團隊近日聯合發佈了一項突破性的AI訓練方法,該方法名爲S1,其核心理念在於利用極簡的測試時縮放技術來顯著提升語言模型的推理能力。與以往依賴龐大算力或複雜算法不同,S1方法巧妙地通過控制模型在測試時的計算資源分配,實現了性能的飛躍。

S1方法首先精心構建了一個名爲s1K的小型數據集,其中包含1000個高質量的推理問題。該數據集的篩選標準非常嚴格,必須同時滿足難度高、多樣性強、質量優良三個條件。研究團隊通過詳盡的消融實驗驗證了這三個標準的重要性,結果表明,隨機選擇或僅關注單一標準都會導致性能大幅下降。值得一提的是,即使使用包含5.9萬個樣本的超集進行訓練,其效果也遠不如精心挑選的1000個樣本,這突顯了數據選擇的關鍵性。

image.png

在模型訓練完成後,研究人員採用一種名爲“預算強制”的技術來控制測試時計算量。簡單來說,這種方法通過強制終止模型的思考過程或添加“等待”指令來延長模型的思考時間,從而引導模型進行更深入的探索和驗證。通過這種方式,模型能夠反覆檢查推理步驟,有效糾正錯誤。

實驗結果表明,經過在s1K數據集上的微調和“預算強制”技術的加持,s1-32B模型在競賽級數學問題上的表現超越了OpenAI的o1-preview模型高達27%。更令人驚喜的是,通過“預算強制”進行縮放,s1-32B模型還展現出了超出自身訓練水平的泛化能力,在AIME24測試集上的得分從50%提升至57%。

image.png

該研究的核心貢獻在於,它提供了一套簡單高效的方法,用於創建具有高推理能力的數據集,並實現測試時的性能縮放。基於此,研究團隊打造了s1-32B模型,其性能完全可以媲美甚至超越閉源模型,同時做到了開源、高樣本效率。該研究的代碼、模型和數據已在GitHub上開源。

研究人員還對數據的細微之處以及測試時縮放技術進行了深入的消融實驗。在數據方面,他們發現同時考慮難度、多樣性和質量是至關重要的。在測試時縮放方面,“預算強制”方法展現出極佳的可控性和性能提升。該研究還探討了並行縮放和順序縮放兩種不同的方法,並引入了REBASE等高級技術,爲未來的研究方向提供了重要的啓示。

這項研究不僅爲AI訓練領域帶來了一種低成本、高效益的新思路,也爲更廣泛的AI應用奠定了堅實的基礎。

論文地址:https://arxiv.org/pdf/2501.19393