2025年3月3日,通義靈碼宣佈上線其最新推理模型Qwen2.5-Max,爲開發者帶來強大的編程和數學能力支持。Qwen2.5-Max使用了超過20萬億token的預訓練數據,並結合精心設計的後訓練方案,展現出卓越的性能。
在多項基準測試中,Qwen2.5-Max表現突出。例如,在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等測試中,Qwen2.5-Max的成績領先於業界其他領先模型,包括DeepSeek V3、GPT-4o和Claude-3.5-Sonnet。此外,在MMLU-Pro等評估中,Qwen2.5-Max也展現了極具競爭力的成績。
在基座模型的對比中,Qwen2.5-Max與DeepSeek V3、Llama-3.1-405B以及Qwen2.5-72B等模型進行了全面比較。結果顯示,通義千問的基座模型在多數基準測試中都展現出顯著優勢。
值得注意的是,三方基準測試平臺Chatbot Arena公佈的最新大模型盲測榜單中,Qwen2.5-Max超越了DeepSeek-V3、Open AI o1-mini和Claude-3.5-Sonnet等模型,以1332分位列全球第七名,成爲中國非推理類大模型的冠軍。在數學和編程等單項能力上,Qwen2.5-Max排名第一,硬提示(Hard prompts)能力排名第二。Chatbot Arena官方評價稱,阿里巴巴的Qwen2.5-Max在多個領域表現強勁,尤其是在編程、數學和硬提示等專業技術領域。
目前,Qwen2.5-Max已經集成到通義靈碼中,用戶可以通過下載通義靈碼插件來體驗其強大的編程能力。