12月5日,騰訊正式發佈新一代自研大模型——混元2.0(Tencent HY2.0),包括Think(推理增強版)與Instruct(指令遵循版)兩個版本,總參數406B、激活32B,支持256K上下文窗口,官方宣稱數學、科學、代碼等複雜推理任務“穩居國內第一梯隊”。模型已同步上線騰訊雲API,並在元寶、ima等原生應用中灰度放量。
MoE架構+長窗口RL,推理成績刷新公開榜單
- 採用混合專家(MoE)架構,實測單卡A100推理速度較Dense結構提升40%
- 在國際數學奧林匹克(IMO)2025公開題、哈佛-MIT數學競賽中,HY2.0Think版準確率分別達83.1%與81.7%,超過GPT-4o78.9%的成績
-256K長窗口通過“分段採樣修正”解決訓練-推理不一致問題,10萬Token文檔QA任務F1提升6.8%
指令遵循多輪對話優化
- 引入可驗證任務+評分式強化學習,Instruct版在Multi-Round MT-Bench上得分8.42,超過同規模模型0.3分
- 支持Function Call、Json Mode與Tool Use,官方實測100輪工具調用成功率97.2%
落地加速:元寶、ima、騰訊雲三線並進
- 元寶App已灰度上線“HY2.0Think”切換鍵,提供數學推導與代碼解釋兩種場景
- ima會議助手接入256K長文本總結,5萬Token會議紀要生成耗時<15秒
- 騰訊雲API定價0.8元/百萬Token輸入、2元/百萬Token輸出,約爲GPT-4o的45%,支持企業私有化部署
開源計劃:模型+數據+工具鏈三箭齊發
騰訊透露,2026Q1將開源HY2.0Base權重、200GB中文預訓練數據及長窗口RL工具鏈,繼續推動國產大模型生態。
行業觀察:參數競賽進入“400B+”時代
隨着混元2.0、Llama3.1-405B、Moonshot400B相繼發佈,國產大模型正式跨入400B參數俱樂部。騰訊強調“不與開源社區搶參數,而是把推理與工具能力做深”,能否憑藉MoE架構+RL策略在成本側勝出,仍需觀察開發者生態與實際落地規模。AIbase將持續跟蹤後續開源進展與性能評測。
