近日,知名 AI 實驗室
這項名爲《流形約束超連接》(Manifold-Constrained Hyper-Connections)的研究,核心在於對現有模型架構的微調。研究人員發現,傳統設計在大規模訓練時容易出現信號傳播不穩定和梯度異常的問題,導致深度模型難以有效訓練。通過引入一種特殊的“約束”機制,
實驗結果顯示,採用新架構的模型在多項權威基準測試中表現亮眼。在考驗複雜多步推理的 BIG-Bench Hard 測試中,準確率從43.8% 顯著提升至51.0%;同時,在數學推理(GSM8K)和邏輯推理(DROP)等領域也均有不同程度的進步。值得注意的是,這些性能增益僅帶來了約6% 到7% 的額外訓練開銷,極具落地可行性。
劃重點:
🛠️ 架構優化勝過盲目擴容:
證明通過解決神經網絡內部連接的穩定性問題,不增加海量參數也能大幅提升模型智商。DeepSeek 📈 推理能力顯著增強:新架構在複雜推理任務中的準確率提升超過7個百分點,且在數學和邏輯測試中表現出色。
⚡ 高性價比的算力方案:實現性能跨越的同時,僅增加了極低的訓練成本,爲未來生產級大模型的構建提供了更經濟的思路。
