幻方量化重磅發佈DeepSeek-V3：性能媲美GPT-4，訓練成本創新低

幻方量化於12月26日晚發佈全新一代大模型DeepSeek-V3，展現出驚人的技術突破。這款採用MoE（混合專家）架構的模型不僅在性能上媲美頂級閉源模型，其低成本高效率的特點更是引發業界關注。

從核心參數來看，DeepSeek-V3擁有6710億參數，其中激活參數爲370億，在14.8萬億token的數據規模上完成預訓練。相比前代產品，新模型的生成速度提升了3倍，每秒可處理60個token，顯著提升了實際應用效率。

在性能評測方面，DeepSeek-V3展現出卓越實力。它不僅超越了Qwen2.5-72B和Llama-3.1-405B等知名開源模型，更在多項測試中與GPT-4和Claude-3.5-Sonnet不相上下。特別是在數學能力測試中，該模型以優異成績超越了所有現有開源和閉源模型。

最引人注目的是DeepSeek-V3的低成本優勢。根據開源論文披露，按每GPU小時2美元計算，模型全部訓練成本僅爲557.6萬美元。這一突破性成果得益於算法、框架和硬件的協同優化。OpenAI聯合創始人Karpathy對此給予高度評價，指出DeepSeek-V3僅用280萬GPU小時就達到了超越Llama3的性能，計算效率提升了約11倍。

在商業化方面，DeepSeek-V3的API服務定價雖較上一代上調，但仍保持較高性價比。新版本定價爲每百萬輸入tokens0.5-2元，輸出tokens8元，總成本約爲10元人民幣。相比之下，GPT-4的同等服務價格約爲140元人民幣，價格差距顯著。

作爲一款全面開源的大模型，DeepSeek-V3的發佈不僅展示了中國AI技術的進步，更爲開發者和企業提供了一個高性能、低成本的AI解決方案。

小巧卻強大的推理引擎！Ring-mini-2.0 震撼發佈，性能超越10B模型

今天，我們正式推出了 Ring-mini-2.0，這是一款基於 Ling-mini-2.0架構深度優化的高性能推理型 MoE 模型。Ring-mini-2.0的總參數量達到16B，但在實際運行中僅需激活1.4B 參數，便能實現相當於10B 級別以下的密集模型的推理能力。這款模型在邏輯推理、編程和數學任務中表現尤爲出色，支持128K 的長上下文，使得其在各種應用場景中都能展現出強大的能力。此外，Ring-mini-2.0的生成速度也相當驚人，能夠實現300+ token/s 的快速生成，經過優化後更是可以突破500+ token/s。圖源備註：圖片由AI生成，圖片授權

OpenAI重磅開源！GPT-OSS模型泄露，116億參數MoE架構震撼曝光，AI新紀元來襲？

OpenAI或將推出開源模型系列"GPT-OSS"，參數規模20億至120億，採用MoE架構和高效注意力機制。核心技術亮點包括：1）116億稀疏參數的MoE架構，128個專家模塊提升推理效率；2）支持131k Tokens長上下文處理；3）64頭GQA注意力機制優化計算效率。此舉被視爲OpenAI戰略轉變，可能對抗Meta等競爭對手。但高硬件需求（如1.5TB內存）可能限制普及。若屬實，將深刻影響AI生態，爲開發者提供更多創新機會。

騰訊開源 Hunyuan-A13B:小尺寸，大智慧的 AI 模型

Hunyuan-A13B 是一個由騰訊最新開源的大語言模型，它以創新的設計理念，在相對較小的活躍參數規模下，實現了強大的性能表現，特別適用於資源受限的環境。這款模型採用了細粒度 MoE（Mixture-of-Experts）架構，擁有130億活躍參數，但總參數量高達800億。這種設計讓它在保持高效和可擴展性的同時，能夠提供前沿的推理能力和通用應用支持。Hunyuan-A13B 的核心功能亮點包括:支持快慢思維的混合推理模式:這種獨特的推理機制讓模型能夠根據任務需求靈活調整思考深度，提升處理複雜問題的效率

幻方量化重磅發佈DeepSeek-V3：性能媲美GPT-4，訓練成本創新低

相關推薦

Liquid AI發佈 LFM2-8B-A1B：8B 參數僅激活1.5B，手機上跑出4B級AI速度！

小巧卻強大的推理引擎！Ring-mini-2.0 震撼發佈，性能超越10B模型

微軟推出新型 AI Agent 模型 rStar2-Agent，以 140 億參數挑戰大規模模型

OpenAI重磅開源！GPT-OSS模型泄露，116億參數MoE架構震撼曝光，AI新紀元來襲？

騰訊開源 Hunyuan-A13B:小尺寸，大智慧的 AI 模型

幻方量化重磅發佈DeepSeek-V3：性能媲美GPT-4，訓練成本創新低

相關推薦

Liquid AI發佈 LFM2-8B-A1B：8B 參數僅激活1.5B，手機上跑出4B級AI速度！

小巧卻強大的推理引擎！Ring-mini-2.0 震撼發佈，性能超越10B模型

​微軟推出新型 AI Agent 模型 rStar2-Agent，以 140 億參數挑戰大規模模型

OpenAI重磅開源！GPT-OSS模型泄露，116億參數MoE架構震撼曝光，AI新紀元來襲？

騰訊開源 Hunyuan-A13B:小尺寸，大智慧的 AI 模型

微軟推出新型 AI Agent 模型 rStar2-Agent，以 140 億參數挑戰大規模模型