7月26日,在2025世界人工智能大會“AI 煥新 產業共贏”企業人工智能產業發展論壇上,中國移動隆重發布了其自主研發的 “九天”基礎大模型3.0。此次發佈不僅彰顯了中國移動在大模型領域的深厚自研實力和持續創新能力,更標誌着其在人工智能產業化發展道路上邁出了堅實一步。
作爲國務院國資委戰新“百大工程”的重要成果,“九天”基礎大模型3.0在繼承“高安全、高可控、全國產、全行業”四大特性的基礎上,實現了三大關鍵“煥新”:
一、九天衆擎語言大模型:架構與性能雙重躍遷
“九天衆擎語言大模型”實現了架構上的突破性創新,採用可擴展至萬億級的 MoE 架構。通過15T token 的多階段配比預訓練數據與全流程治理體系,其推理能力得到顯著強化。該模型還創新構建了113域 ×53能力的二維分級後訓練框架,結合動態強化學習策略,使複雜推理能力提升了 35%。
在權威榜單評測中,“九天”語言大模型成績斐然:
在 GPQA-Diamond 評測中,以 77.67分斬獲全球第二,超越 DeepSeekR1和 Qwen3。
在 ArenaHard V1.0 中,以 67.2分位居全球第一。
在 BFCL V3 評測中,達到 68分。
在性能大幅躍升的同時,模型進一步強化了可控生成能力,通過精確流程內置等技術細節,實現了專業場景下的零幻覺,破解了沉浸式角色演繹難題。
基於最新的語言大模型,中國移動還同步推出了多個專項模型:
九天代碼大模型: 採用兩階段持續訓練技術,支持代碼生成、註釋生成、單元測試生成、代碼智能問答等任務,覆蓋 Python、Java、JS、TS、Go、C++ 等10餘種主流編程語言。在 EvalPlus、MHPP、LivecodeBenchv6等多個代碼生成榜單上表現領先。
九天數學大模型: 在短思考、長思考模式下均達到業界 SOTA 水平,多項指標超越 Qwen2.5Math、Qwen3、DeepSeek Math、DeepSeek R1-Distill 等同參數量級模型。
二、九天善智多模態大模型:生成可控性與理解能力全面提升
“九天善智多模態大模型”引入複雜時空建模、流匹配圖片視頻漸進式聯合訓練、端到端局部可控注意力機制等創新技術。同時,通過融合多模態理解信息和聯合圖文交織數據訓練,顯著提升了模型對文本指令和輸入條件圖像視頻的感知能力。這意味着模型不僅能生成高質量的圖像視頻,還能進行多輪對話式高可控精確編輯操作,大幅提升了視覺生成的靈活便利性。例如,在圖片生成方面可支持多輪精準局部修改,如修改文字、修改背景、增加元素等。
模型的圖理解和視頻理解性能也得到了全面提升:
圖理解方面: 在 MMStar、HallusionBench 和 OCRBench 等圖理解任務中,九天模型分別獲得了 82.2、64.3和94.9的高分,處於業界領先水平。
視頻理解方面: 在 Videomme 和 MVbench 兩個任務中均表現領先,超越 Qwen2-VL 和 InternVideo2。
三、模型及核心技術開放開源,助力產業生態發展
中國移動此次還採取了開放策略,將多項模型及核心技術進行開源,旨在推動行業共同發展:
開源九天數童結構化數據大模型: 包括 JT-DA-8B 模型及後續演進版本,支持下載模型權重、微調代碼、推理代碼等。
開源九天數學大模型: 包括 JT-Math-8B 系列模型,支持下載模型權重、推理代碼、技術報告。
開源九天代碼大模型: 包括 JT-Coder-8B 系列模型,支持下載模型權重、推理代碼、技術報告。
開源業界首創的結構化數據模型評測數據及 TReB 評測體系: 涵蓋6大任務、34個能力,包括高質量、全面的數據、推理模式及評價指標,支持下載評測數據集、測試代碼。
開源 CCR-Bench 行業場景複雜指令遵循評測數據集: 包含174條高質量、多樣化、高難度複雜指令數據,高度模擬健康專家、智能客服、醫療助手等典型工業場景,支持下載數據集。
以上所有開源內容均已上線煥新社區、Github、HuggingFace、魔搭社區、Gitee 和 Arxiv,將爲開發者和研究人員提供寶貴的資源,共同加速人工智能技術的創新與應用。