騰訊“混元-T1”推理模型在基準測試中與 OpenAI 的 o1 能力相匹配

騰訊近日宣佈推出其最新的大型語言模型——混元-T1，並表示該模型在推理能力上可與OpenAI的最佳推理系統相匹敵。

據騰訊介紹，混元-T1在開發過程中高度依賴強化學習，高達96.7%的訓練後算力都用於提升模型的邏輯推理能力以及與人類偏好的一致性。

在多項基準測試中，混元-T1展現出強大的性能。在測試14個學科知識的MMLU-PRO評估中，該模型取得了87.2分，僅略低於OpenAI的o1模型。在科學推理方面，渾元-T1在GPQA-diamond測試中獲得了69.3分。

尤其值得一提的是，騰訊強調混元-T1在數學方面的卓越表現。其在MATH-500基準測試中獲得了高達96.2分的成績，僅次於Deepseek-R1。此外，該模型在代碼生成（LiveCodeBench:64.9分）和高難度推理(ArenaHard:91.9分)等方面也表現出色。騰訊還指出，混元-T1在多項中文任務上的準確率超過90%。

在模型訓練方面，騰訊採用了課程學習的方法，逐步增加任務難度。此外，該公司還創新性地開發了自我獎勵系統，利用模型的早期版本評估新版本的輸出，從而驅動模型性能的持續提升。

混元-T1採用了Transformer Mamba混合架構，騰訊聲稱在相同條件下，該架構處理長文本的速度是傳統模型的兩倍。目前，Hunyuan-T1已通過騰訊雲對外開放，並且在Hugging Face上提供了演示。

此次發佈是繼百度和阿里巴巴相繼推出其聲稱達到o1水平的自研模型後，中國科技巨頭在AI領域展開競爭的又一重要舉措。值得注意的是，阿里巴巴、百度和Deepseek都在積極推行開源戰略。人工智能投資者、前谷歌中國區總裁李開復此前曾公開表示，這些中國AI模型的發展對OpenAI構成了潛在的生存威脅。

日本科學家發佈“Sui”編程語言，宣稱能讓 LLM100% 準確編寫代碼

日本數據科學家本田崇人推出開源編程語言“Sui”，旨在解決大語言模型生成代碼的準確性問題，宣稱可實現100%準確率。其設計理念源於日本美學“粋”，強調精煉與去除冗餘，核心原則包括保證零語法錯誤率，並使用數字作爲變量。

騰訊“混元-T1”推理模型在基準測試中與 OpenAI 的 o1 能力相匹配

相關推薦

日本科學家發佈“Sui”編程語言，宣稱能讓 LLM100% 準確編寫代碼

醫療AI新突破！南洋理工發佈首個電子病歷處理評測標準

MIT 推出新方法，顯著提升大型語言模型計算效率

OpenAI 推出 “懺悔” 機制旨在揭示 AI 潛在不當行爲

OpenAI 推出 AI “懺悔”框架:旨在訓練模型承認不當行爲，提高誠實度

騰訊“混元-T1”推理模型在基準測試中與 OpenAI 的 o1 能力相匹配

相關推薦

日本科學家發佈“Sui”編程語言，宣稱能讓 LLM100% 準確編寫代碼

醫療AI新突破！南洋理工發佈首個電子病歷處理評測標準

MIT 推出新方法，顯著提升大型語言模型計算效率

​OpenAI 推出 “懺悔” 機制 旨在揭示 AI 潛在不當行爲

OpenAI 推出 AI “懺悔”框架:旨在訓練模型承認不當行爲，提高誠實度

OpenAI 推出 “懺悔” 機制旨在揭示 AI 潛在不當行爲