字節跳動加入了快速發展的AI推理模型競爭,推出了專注於科學、技術、數學和工程(STEM)領域的新型大語言模型Seed-Thinking-v1.5。這款採用混合專家(MoE)架構的模型在多項基準測試中表現優異,甚至在某些指標上超越了行業巨頭的產品。
推理AI的演進歷程
推理AI競賽始於2024年9月OpenAI的o1模型發佈,而後在2025年1月DeepSeek R1的推出後真正加速。如今,主要AI企業都在競相開發能夠執行"思路鏈"推理的模型,以提供更全面、更合理的回答。Seed-Thinking-v1.5採用了流行的混合專家(MoE)架構,類似於Meta的Llama4和Mistral的Mixtral。該架構使模型能夠在龐大的2000億參數庫中每次只使用200億參數,大幅提高效率。
卓越的性能表現
這款模型展現了令人印象深刻的能力:在AIME2024上獲得86.7%的得分,在Codeforces上獲得55.0%的pass@8分數,在GPQA科學基準測試中獲得77.3%的得分。更令人矚目的是,它在ARC-AGI基準測試中超越了Google的Gemini2.5Pro和OpenAI的o3-mini-high。在非推理任務中,Seed-Thinking-v1.5的勝率比DeepSeek R1高出8.0%,表明其性能優勢不僅限於邏輯或數學密集型任務。
技術創新與突破
字節跳動在Seed-Thinking-v1.5的開發中採用了多項創新技術,包括精心策劃的訓練數據、先進的強化學習框架、雙層獎勵系統和高效的基礎設施。他們使用40萬個樣本進行監督微調,採用自定義的演員-評論家(VAPO)和策略梯度(DAPO)框架解決強化學習訓練中的不穩定性問題,創新性地使用"種子驗證器"和"種子思維驗證器"評估模型輸出質量,並通過HybridFlow框架和流式部署系統(SRS)實現訓練效率提升,據報道將強化學習週期速度提高3倍。
未來發展與行業影響
雖然Seed-Thinking-v1.5目前尚未開放下載或使用,其許可條款也未公佈,但它的出現無疑加劇了推理AI領域的競爭,爲強大、高效的大型語言模型設定了新標準。該項目是字節跳動Seed LLM系統團隊合作的成果,由吳永輝領導,林海濱擔任公開代表,團隊計劃繼續完善強化學習技術並公開發布BeyondAIME等內部基準,以促進推理AI研究的更廣泛進步。