2025年7月26日、世界人工知能大会「AI 焕新 産業共栄」企業人工知能産業発展フォーラムにおいて、中国移動は自社開発の「九天(ジュー・ティエン)」ベーシック大モデル3.0を発表しました。今回の発表は、中国移動が大モデル分野における深い自社研究力と継続的なイノベーション能力を示すとともに、人工知能の産業化発展の道で重要な一歩を踏み出したことを意味しています。
国務院国有資産監督管理委員会の戦略新興「百大プロジェクト」の重要成果として、「九天」ベーシック大モデル3.0は、「高セキュリティ、高制御性、国内製品、全業界対応」の4つの特性を引き継ぎながら、三大主要な「刷新」を実現しました。
一、九天众擎言語大モデル:アーキテクチャと性能の両方で飛躍
「九天众擎言語大モデル」はアーキテクチャ面での突破的革新を達成し、トロイの馬(MoE)アーキテクチャを採用し、1兆トークンを超える多段階の比率調整トレーニングデータと全体的なプロセス治理体系を活用して、推論能力が大幅に強化されました。このモデルはさらに、113領域×53能力の二次元分級後訓練フレームワークを独自に構築し、動的強化学習戦略を組み合わせることで、複雑な推論能力が35%
権威あるランキング評価で、「九天」言語大モデルは目覚ましい成績を収めました:
GPQA-Diamond評価では、77.67点で世界第2位を獲得し、DeepSeekR1やQwen3を上回りました。
ArenaHard V1.0では、67.2点で世界第1位となりました。
BFCL V3評価では、68点を記録しました。
性能が大幅に向上した一方で、モデルは生成の制御能力をさらに強化し、正確なフロー内蔵などの技術的細部を通じて、専門的なシナリオにおけるゼロホビングを実現し、没入型の役割再現の難題を解決しました。
最新の言語大モデルに基づき、中国移動は同時にいくつかの専門モデルも公開しました:
九天コード大モデル:二段階の継続トレーニング技術を採用し、コード生成、コメント生成、ユニットテスト生成、コードのスマート質問応答などのタスクをサポートし、Python、Java、JS、TS、Go、C++など10種類以上の主流プログラミング言語をカバーしています。EvalPlus、MHPP、LivecodeBenchv6などのコード生成ランキングで優れた成績を収めています。
九天数学大モデル:短い思考と長い思考モードの両方で業界のSOTA水準に達しており、多数の指標がQwen2.5Math、Qwen3、DeepSeek Math、DeepSeek R1-Distillなどの同パラメータ量モデルを上回っています。
二、九天善智マルチモーダル大モデル:生成の制御性と理解能力の全面的な向上
「九天善智マルチモーダル大モデル」は、複雑な時間空間モデリング、画像および動画の漸進的統合トレーニング、エンドツーエンドの局所制御注目機構などの革新的な技術を導入しました。また、マルチモーダル理解情報と統合されたテキストと画像のデータトレーニングを融合することで、モデルがテキスト命令や入力条件の画像および動画の認識能力が顕著に向上しました。これは、モデルが高品質な画像および動画を生成できるだけでなく、複数回の対話形式による高制御精度の編集操作も行えることを意味します。例えば、画像生成では複数回の精密な局所修正が可能であり、文字の変更、背景の変更、要素の追加などが可能です。
モデルの図形理解および動画理解の性能も大幅に向上しました:
図形理解に関して:MMStar、HallusionBench、OCRBenchなどの図形理解タスクにおいて、九天モデルはそれぞれ82.2、64.3、94.9の高い得点を獲得し、業界の先頭を走っています。
動画理解に関して:VideommeおよびMVbenchの2つのタスクにおいても優れた成績を収め、Qwen2-VLおよびInternVideo2を上回っています。
三、モデルおよび核心技術のオープンソース化により産業生態系の発展を支援
中国移動は今回の発表でオープンソース戦略を採用し、多くのモデルおよび核心技術をオープンソース化することで、業界の共同発展を促進することを目指しています:
九天数童構造化データ大モデルのオープンソース:JT-DA-8Bモデルおよびその後のバージョンを含み、モデルの重みのダウンロード、微調整コード、推論コードなどをサポートします。
九天数学大モデルのオープンソース:JT-Math-8Bシリーズモデルを含み、モデルの重みのダウンロード、推論コード、技術報告書をサポートします。
九天コード大モデルのオープンソース:JT-Coder-8Bシリーズモデルを含み、モデルの重みのダウンロード、推論コード、技術報告書をサポートします。
業界初の構造化データモデル評価データおよびTReB評価体系のオープンソース:6つの主要タスク、34個の能力をカバーし、高品質かつ包括的なデータ、推論モードおよび評価指標を提供し、評価データセットおよびテストコードのダウンロードをサポートします。
CCRBench業界シーン複雑指令遵守評価データセットのオープンソース:174本の高品質で多様で高難度の複雑指令データを含み、健康専門家、スマートコールセンター、医療アシスタントなどの典型的な工業シナリオを高度に模倣し、データセットのダウンロードをサポートします。