近日,德國知名技術諮詢公司 TNG 發佈了 DeepSeek 的增強版 ——DeepSeek-TNG-R1T2-Chimera,標誌着深度學習模型在推理效率和性能上的又一次重大突破。這一新版本不僅在推理效率上提升了200%,而且通過創新的 AoE 架構顯著降低了推理成本。

創新的 AoE 架構

Chimera 版本是基於 DeepSeek 的 R1-0528、R1和 V3-0324三大模型的混合開發,採用了全新的 AoE(Adaptive Expert)架構。這一架構通過對混合專家(MoE)架構的細緻優化,能夠高效地利用模型參數,從而提升推理性能並節省 token 輸出。

在多項主流測試基準(如 MTBench、AIME-2024)中,Chimera 版本的表現優於普通 R1版本,展現出顯著的推理能力和經濟性。

image.png

MoE 架構的優勢

在深入瞭解 AoE 架構之前,我們需要了解混合專家(MoE)架構。MoE 架構將 Transformer 的前饋層劃分爲多個 “專家”,每個輸入標記僅會路由到部分專家。這種方法有效提高了模型的效率和性能。

例如,2023年 Mistral 推出的 Mixtral-8x7B 模型,儘管激活的參數數量僅爲13億,卻能夠與擁有700億參數的 LLaMA-2-70B 模型相媲美,推理效率提高了6倍。

AoE 架構利用 MoE 的細粒度特性,允許研究者從現有的混合專家模型中構建具有特定能力的子模型。通過插值和選擇性合併父模型的權重張量,生成的新模型不僅保留了優良特性,還能夠根據實際需求靈活調整其性能表現。

研究者選擇了 DeepSeek-V3-0324和 DeepSeek-R1作爲父模型,基於不同的微調技術,使得這兩個模型在推理能力和指令遵循方面都表現卓越。

權重合並與優化

在構建新的子模型過程中,研究者首先需要準備父模型的權重張量,並通過解析權重文件進行直接操作。接着,通過定義權重係數,研究者可以平滑地插值和合並父模型的特徵,生成新的模型變體。

在合併過程中,研究者引入了閾值控制與差異篩選機制,確保只有在顯著差異的情況下,纔將相關張量納入合併範圍,從而減少模型複雜性和計算成本。

在 MoE 架構中,路由專家張量是至關重要的組成部分,它決定了輸入標記在推理過程中選擇的專家模塊。AoE 方法特別關注這些張量的合併,研究者發現,通過優化路由專家張量,可以顯著提升子模型的推理能力。

最終,通過 PyTorch 框架,研究者實現了模型的合併。合併後的權重被保存到新的權重文件中,生成了新的子模型,展現出高效性和靈活性。

image.png

開源地址: https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera