寒武紀成功適配 DeepSeek-V4，推動 AI 模型高效運行

寒武紀公司宣佈，他們已成功完成對深度求索公司最新開源 AI 模型 DeepSeek-V4 的 Day 0 適配。此舉意味着該模型在發佈當天即可實現穩定運行，爲用戶帶來了更高效的人工智能體驗。寒武紀利用其自主研發的高性能融合算子庫 Torch-MLU-Ops，對模型中的 Compressor、mHC 等模塊進行了針對性加速。這項技術的引入大幅提升了推理效率。

在推理框架方面，寒武紀採用了 vLLM（Variable Length Language Model）技術，全面支持多種並行計算方式，包括 TP、PP、SP、DP 和 EP 等。同時，寒武紀還實現了通信計算並行、低精度量化和 PD 分離部署等優化。這些措施使得模型在滿足延時約束的情況下，顯著提高了處理速度。

此外，寒武紀還深入挖掘了硬件特性，通過優化 MLU 訪存與排序，加速了稀疏 Attention 和 Indexer 等結構的運行。高互聯帶寬和低通信延遲的特性將不同工作負載場景下的通信佔比降至最低，有效提高了分佈式推理的利用率。

值得一提的是，DeepSeek-V4 模型擁有百萬字超長上下文，在 Agent 能力、世界知識和推理性能上，達到了國內外開源領域的領先水平。用戶可以通過訪問官網或官方 App，與最新的 DeepSeek-V4 進行互動，享受超長上下文記憶帶來的全新體驗。同時，API 服務也已更新，開發者可以輕鬆調用新模型。

這一系列優化和適配工作不僅提升了模型性能，也爲後續的 AI 技術應用提供了堅實基礎，展現了寒武紀在人工智能領域的強大實力。

劃重點：
🌟 寒武紀完成對 DeepSeek-V4 的 Day 0 適配，模型發佈當天穩定運行。
🚀 自主研發的高性能算子庫和推理框架優化顯著提升推理效率。
📈 DeepSeek-V4 支持百萬字超長上下文，帶來領先的 AI 體驗。

寒武紀宣佈實現 DeepSeek-V4全系列模型 Day0適配並開源優化代碼

寒武紀宣佈完成對DeepSeek-V4全系列模型的“Day0”適配，基於vLLM推理框架，覆蓋285B參數Flash版及1.6T參數Pro版。通過自研Torch-MLU-Ops算子庫優化稀疏注意力與壓縮結構，確保模型發佈當日即可在寒武紀硬件上穩定運行，相關代碼已開源至GitHub。

DeepSeek-V4 發佈！性能直逼頂級閉源模型，百萬上下文 1 元起

DeepSeek於4月24日發佈新一代大模型DeepSeek-V4，性能比肩頂級閉源模型，成爲開源AI里程碑。它支持100萬tokens超長上下文，適用於長文檔分析、代碼生成和多輪任務。同時推出輕量版Flash和標準版，分別滿足快速迭代與深度應用需求。

DeepSeek-V4預覽版正式發佈:1M 超長上下文進入全員普惠時代

深度求索（DeepSeek）發佈DeepSeek-V4預覽版並開源，實現1M超長上下文標準化，在Agent協作、知識及推理性能上領先國內及開源領域。雙版本佈局：Pro版（1.6T參數，激活49B）性能對標頂級閉源模型，Flash版兼顧效率，滿足不同應用需求。

首次全年扭虧爲盈後，寒武紀正面迴應大廠競爭:通用芯片具備更強“技術普適性”

寒武紀董事長陳天石在2025年度業績說明會上回應投資者，針對互聯網大廠自研芯片的競爭壓力，強調公司產品採用“通用型”設計，具備更強的普適性，能應對多樣化AI技術。他指出，大廠芯片多圍繞主營業務提供垂直解決方案，而寒武紀的通用架構更靈活，適應不同場景需求。

寒武紀成功適配 DeepSeek-V4，推動 AI 模型高效運行

相關推薦

騰訊雲 TokenHub 發佈 DeepSeek-V4 預覽版，百萬上下文支持全面上線

寒武紀宣佈實現 DeepSeek-V4全系列模型 Day0適配並開源優化代碼

DeepSeek-V4 發佈！性能直逼頂級閉源模型，百萬上下文 1 元起

DeepSeek-V4預覽版正式發佈:1M 超長上下文進入全員普惠時代

首次全年扭虧爲盈後，寒武紀正面迴應大廠競爭:通用芯片具備更強“技術普適性”