近日,Qafind Labs發佈了其最新研發的ChatDLM模型,這一創新成果在人工智能領域引起了廣泛關注。ChatDLM是首個將“區塊擴散(Block Diffusion)”和“專家混合(MoE)”深度融合的模型,其在GPU上實現了驚人的2,800tokens/s超高推理速度,支持131,072tokens的超大上下文窗口,開啓了文檔級生成和實時對話的新紀元。

微信截圖_20250428082020.png

ChatDLM的核心亮點在於其獨特的技術架構。該模型採用7B參數量,通過區塊擴散技術,將輸入按塊分組,結合空間擴散和跨塊注意力機制,極大地提升了處理速度。同時,ChatDLM引入了專家混合(MoE)技術,配置了32到64個專家,每次選擇2個專家進行處理,這種靈活的機制進一步優化了模型的性能。

爲了支持超大上下文,ChatDLM採用了RoPE優化和分層緩存技術,顯著增強了模型的記憶能力。在推理優化方面,ChatDLM通過動態早停、BF16混合精度以及ZeRO分片等技術,實現了多GPU的輕鬆擴展,進一步提升了模型的效率和可擴展性。

在性能測試中,ChatDLM在A100GPU上表現出色,吞吐量達到2800tokens/s,上下文長度爲131,072tokens,平均迭代步數在12到25之間。在HumanEval(0-shot)測試中,ChatDLM的準確率達到92.0%,在Fill-in-the-Middle測試中準確率爲84.2%,在ARC-E(0-shot)測試中準確率爲83.9%,這些數據充分證明了其卓越的性能。

展望未來,Qafind Labs計劃爲ChatDLM引入更多先進技術,包括自適應迭代(Adaptive Iteration)、圖注意力集成(Graph-Attention)以及多模態擴散(Multimodal Diffusion),以進一步提升模型的精度和適用範圍。

體驗地址:https://www.chatdlm.cn