テンセントは最近、最新の巨大言語モデル「混元-T1」を発表し、その推論能力はOpenAIの最上位推論システムに匹敵すると述べています。
テンセントによると、混元-T1の開発においては強化学習に大きく依存しており、トレーニング後の計算能力の96.7%は、モデルの論理推論能力と人間の好みとの整合性の向上に費やされました。
複数のベンチマークテストで、混元-T1は強力な性能を示しました。14の学問分野の知識をテストするMMLU-PRO評価では、87.2点を獲得し、OpenAIのo1モデルをわずかに下回ったのみです。科学的推論においては、GPQA-diamondテストで69.3点を獲得しました。
特に注目すべきは、テンセントが混元-T1の数学における卓越した性能を強調している点です。MATH-500ベンチマークテストでは96.2点の高得点を獲得し、Deepseek-R1に次ぐ成績でした。さらに、コード生成(LiveCodeBench:64.9点)や高度な推論(ArenaHard:91.9点)などでも優れた性能を発揮しました。テンセントはまた、混元-T1は多くの中国語タスクで90%を超える精度を達成したと指摘しています。
モデルのトレーニングにおいては、テンセントは段階的にタスクの難易度を高めるカリキュラム学習を採用しました。さらに、同社は革新的な自己報酬システムを開発し、モデルの初期バージョンを使用して新バージョンの出力を評価することで、モデル性能の継続的な向上を促進しています。
混元-T1はTransformer Mambaハイブリッドアーキテクチャを採用しており、テンセントは同じ条件下で、このアーキテクチャは従来のモデルの2倍の長文処理速度を達成すると主張しています。現在、Hunyuan-T1はテンセントクラウドを通じて公開されており、Hugging Faceでもデモが提供されています。
今回の発表は、百度とアリババが相次いでo1レベルに達したと主張する独自のモデルを発表した後、中国のテクノロジー大手によるAI分野での競争における新たな重要な動きです。注目すべきは、アリババ、百度、Deepseekが積極的にオープンソース戦略を推進していることです。人工知能投資家で元Google中国社長の李開復氏は以前、これらの中国のAIモデルの発展はOpenAIに潜在的な生存の脅威を与えると公言していました。