人工智能模型的參數量是否一定要“越大越好”?近日,新浪開源的 VibeThinker-3B 模型給出了一份極具啓發性的答卷。儘管該模型僅擁有30億參數,但在數學、編程等高難度基準測試中,它竟然展現出了足以媲美主流百倍規模大模型的強悍性能,甚至在部分競賽級任務中超越了多款行業頂尖產品。
VibeThinker-3B 的優異表現並非偶然,而是得益於其獨特的訓練策略。該模型以阿里 Qwen2.5-Coder-3B 爲基底,通過多階段的精細化“後訓練”——涵蓋了監督微調、強化學習、自蒸餾及指令微調等環節,將大模型的邏輯推理能力深度濃縮進了3B 的輕量化架構中。測試顯示,在 LeetCode 競賽題目中,它能高效完成128道題中的123道,這一成績已超過了 GPT-5.2等行業標杆。

此次發佈最引人深思的,是研發團隊提出的“參數壓縮-覆蓋假說”。研究發現,AI 的能力並非“鐵板一塊”:像邏輯推理、編程運算這種結構清晰的任務,通過特定模式的訓練,可以被極高密度地壓縮;而廣泛的世界知識儲備,則依然依賴龐大的參數量來支撐。這意味着,未來在推理任務中,我們未必一定要調用成本昂貴的超大模型。

目前,VibeThinker-3B 已在
