テンセントが独自開発した大規模モデル「ホンユアン2.0(Tencent HY2.0)」が正式にリリースされ、同時にDeepSeek V3.2も段階的にテンセントエコシステムに統合されています。現在、この2つのモデルは元宝、imaなどのテンセントAIネイティブアプリケーションで最初に公開されており、テンセントクラウドも関連モデルのAPIおよびプラットフォームサービスを同時に公開しています。
Tencent HY2.0は、混合エキスパート(MoE)アーキテクチャを採用し、総パラメータ数は406B(アクティベーションパラメータ32B)に達しており、256Kの超長文脈窓をサポートしています。その推論能力と効率は業界でトップレベルです。

前バージョン(Hunyuan-T1-20250822)との比較では、HY2.0Thinkは事前学習データと強化学習戦略において顕著な改善を遂げました。数学、科学、コード、指示の遵守など複雑な推論シナリオにおいて、その全体的なパフォーマンスは国内第1グループに位置づけられ、汎化性も大幅に向上しました。
数学と科学知識の推論において、HY2.0Thinkは高品質なデータを使用してLarge Rollout強化学習を実施し、推論能力が大きく向上しました。国際数学オリンピック(IMO-AnswerBench)やハーバード・マサチューセッツ大学数学コンテスト(HMMT2025)などの権威あるテストで、このモデルは一流の成績を収めました。事前学習データの進歩と組み合わせることで、人間最後の試験(Humanitys Last Exam: HLE)や汎化性を問うARC AGIなどのタスクでも大幅な進歩を遂げています。

指示の遵守と長文でのマルチラウンド対応において、HY2.0Thinkは重要性サンプリング修正により、トレーニングと推論の不一致問題を緩和し、長窓口RLの効率的かつ安定したトレーニングを実現しました。また、多様な検証可能なタスクサンドボックスおよびスコア基準に基づく強化学習を活用し、Multi Challengeなどの指示遵守およびマルチラウンドタスクにおける効果が顕著に向上しました。
