8月12日,華爲將在 2025金融AI推理應用落地與發展論壇 上發佈突破性 AI 推理創新技術 UCM(推理記憶數據管理器)。該技術有望降低中國 AI 推理對 HBM(高帶寬內存)的依賴,並顯著提升國內大模型推理性能。
UCM 以 KV Cache 爲核心,融合多類型緩存加速算法工具,通過分級管理推理過程中產生的記憶數據,擴大上下文窗口,實現高吞吐、低時延的推理體驗,並降低每 Token 的推理成本。這一方案可緩解 HBM 資源不足帶來的任務卡頓與響應延遲問題。
在此次論壇上,華爲將與中國銀聯共同發佈 AI 推理最新應用成果。信通院、清華大學、科大訊飛等機構專家也將分享大模型推理加速與體驗優化的實踐。華爲數據存儲產品線副總裁樊傑表示,未來 AI 突破將高度依賴高質量行業數據的釋放,高性能 AI 存儲可將數據加載時間從小時級縮短至分鐘級,使算力集羣效率從30% 提升至60%。
業內分析認爲,UCM 的推出正值 AI 產業從“追求模型能力極限”轉向“追求推理體驗最優化”的關鍵節點,推理體驗已成爲衡量 AI 商業價值的重要標準。長城證券指出,隨着大模型能力持續提升與商業場景擴展,算力及產業鏈公司有望迎來新的發展機遇。