寒武紀公司宣佈,他們已成功完成對深度求索公司最新開源 AI 模型 DeepSeek-V4 的 Day 0 適配。此舉意味着該模型在發佈當天即可實現穩定運行,爲用戶帶來了更高效的人工智能體驗。寒武紀利用其自主研發的高性能融合算子庫 Torch-MLU-Ops,對模型中的 Compressor、mHC 等模塊進行了針對性加速。這項技術的引入大幅提升了推理效率。
在推理框架方面,寒武紀採用了 vLLM(Variable Length Language Model)技術,全面支持多種並行計算方式,包括 TP、PP、SP、DP 和 EP 等。同時,寒武紀還實現了通信計算並行、低精度量化和 PD 分離部署等優化。這些措施使得模型在滿足延時約束的情況下,顯著提高了處理速度。
此外,寒武紀還深入挖掘了硬件特性,通過優化 MLU 訪存與排序,加速了稀疏 Attention 和 Indexer 等結構的運行。高互聯帶寬和低通信延遲的特性將不同工作負載場景下的通信佔比降至最低,有效提高了分佈式推理的利用率。
值得一提的是,DeepSeek-V4 模型擁有百萬字超長上下文,在 Agent 能力、世界知識和推理性能上,達到了國內外開源領域的領先水平。用戶可以通過訪問官網或官方 App,與最新的 DeepSeek-V4 進行互動,享受超長上下文記憶帶來的全新體驗。同時,API 服務也已更新,開發者可以輕鬆調用新模型。
這一系列優化和適配工作不僅提升了模型性能,也爲後續的 AI 技術應用提供了堅實基礎,展現了寒武紀在人工智能領域的強大實力。
劃重點:
🌟 寒武紀完成對 DeepSeek-V4 的 Day 0 適配,模型發佈當天穩定運行。
🚀 自主研發的高性能算子庫和推理框架優化顯著提升推理效率。
📈 DeepSeek-V4 支持百萬字超長上下文,帶來領先的 AI 體驗。
