騰訊近日宣佈推出其最新的大型語言模型——混元-T1,並表示該模型在推理能力上可與OpenAI的最佳推理系統相匹敵。

據騰訊介紹,混元-T1在開發過程中高度依賴強化學習,高達96.7%的訓練後算力都用於提升模型的邏輯推理能力以及與人類偏好的一致性。

在多項基準測試中,混元-T1展現出強大的性能。在測試14個學科知識的MMLU-PRO評估中,該模型取得了87.2分,僅略低於OpenAI的o1模型。在科學推理方面,渾元-T1在GPQA-diamond測試中獲得了69.3分。

QQ20250325-095626.png

尤其值得一提的是,騰訊強調混元-T1在數學方面的卓越表現。其在MATH-500基準測試中獲得了高達96.2分的成績,僅次於Deepseek-R1。此外,該模型在代碼生成(LiveCodeBench:64.9分)和高難度推理(ArenaHard:91.9分)等方面也表現出色。騰訊還指出,混元-T1在多項中文任務上的準確率超過90%。

在模型訓練方面,騰訊採用了課程學習的方法,逐步增加任務難度。此外,該公司還創新性地開發了自我獎勵系統,利用模型的早期版本評估新版本的輸出,從而驅動模型性能的持續提升。

混元-T1採用了Transformer Mamba混合架構,騰訊聲稱在相同條件下,該架構處理長文本的速度是傳統模型的兩倍。目前,Hunyuan-T1已通過騰訊雲對外開放,並且在Hugging Face上提供了演示。

此次發佈是繼百度和阿里巴巴相繼推出其聲稱達到o1水平的自研模型後,中國科技巨頭在AI領域展開競爭的又一重要舉措。值得注意的是,阿里巴巴、百度和Deepseek都在積極推行開源戰略。人工智能投資者、前谷歌中國區總裁李開復此前曾公開表示,這些中國AI模型的發展對OpenAI構成了潛在的生存威脅。