2025年1月16日,上海階躍星辰智能科技有限公司宣佈其自研推理模型Step Reasoner mini(簡稱“Step R-mini”)正式上線。用戶可登錄躍問網頁端https://yuewen.cn,在左上角選擇“Step R-mini”進行體驗。

Step R-mini是Step系列模型家族的首個推理模型,擅長主動規劃、嘗試和反思,通過慢思考和反覆驗證的邏輯機制,爲用戶提供準確可靠的回覆。它不僅能夠通過超長推理能力解決邏輯推理、代碼和數學等複雜問題,還能兼顧文學創作等通用領域。

階躍星辰自研的Step系列基座模型矩陣已覆蓋語言、多模態到推理的全面能力。在AIME和Math等數學基準測試上,Step R-mini的成績超過了o1-preview,比肩OpenAI o1-mini。在LiveCodeBench代碼任務上,也比o1-preview效果更佳。值得一提的是,大部分推理模型難以兼顧文理科雙方向能力,但Step R-mini通過大規模的強化學習訓練,並使用On-Policy(同策略)強化學習算法,實現了“文理兼修”,既能準確解答數學、代碼、邏輯推理問題,又能富有創意地完成文學內容創作和日常聊天的任務。

微信截圖_20250116133149.png

在實際應用中,Step R-mini展現了出色的效果。在解答數學題時,面對奧數難題,它能構建合理推理鏈,實現複雜數學問題的規劃和逐步求解,並枚舉不同解法方案交叉驗證。在處理幾何題目時,能主動通過畫草圖構建深度思考的內容介質。在邏輯推理任務中,自主嘗試多種解題思路,自我反問確保枚舉出所有良好解決方案。在代碼題方面,能正確解答LeetCode技術平臺上難度評級爲“Hard”的算法題,還能處理複雜開發需求,逐步分析用戶需求和意圖,構建代碼邏輯。在內容創作上,能深入理解用戶表達需求,分析創作主題、文學題材等要求,思考創作角度、描繪景物、修辭手法、內容結構,賦予事物人類情感層面的象徵意義,並增加個性化、創新的表達風格。在翻譯問題上,遵循“信達雅”原則,力求呈現精準且含義豐富的翻譯結果。

除了語言推理模型,階躍星辰還在打造視覺推理模型,將推理能力融入更多交互形態的大模型中。針對複雜視覺場景下的Reasoning問題,引入慢感知和空間推理思想,把Test-Time Scaling從文本空間轉移到視覺空間,實現在視覺空間下的Spatial-Slow-Thinking。目前,視覺推理模型已取得階段性成果,正式版本預計今年與大家見面。