螞蟻百靈大模型團隊近日宣佈,正式開源兩款全新的高效思考模型:Ring-flash-linear-2.0和 Ring-mini-linear-2.0。這些模型專爲提高深度推理效率而設計,同時發佈的還有兩款自主研發的高性能融合算子,分別是 FP8融合算子和線性 Attention 推理融合算子,旨在實現 “大參數、低激活” 的高效推理與超長上下文支持。

根據團隊介紹,得益於架構的優化與高性能算子的協同工作,這兩款新模型在深度推理場景下的成本僅爲同等規模的密集模型的十分之一,而與之前的 Ring 系列相比,推理成本也降低了超過50%。這意味着,用戶在進行復雜推理時,可以大幅降低計算資源的消耗,提升工作效率。

新模型的優勢不僅在於成本的降低,另外一個重要因素是其訓練與推理引擎算子的高度對齊。這種對齊允許模型在強化學習階段進行長週期、穩定且高效的優化,使得這些模型在多個高難度推理榜單中持續保持最佳表現(SOTA)。這無疑爲使用者在需要進行復雜推理任務時提供了更強大的工具。

作爲開源項目,Ring-flash-linear-2.0和 Ring-mini-linear-2.0已在多個平臺上發佈,包括 Hugging Face 和 ModelScope。對此,開發者們可以在這些平臺上獲取更多信息並進行嘗試。

隨着這次開源,螞蟻百靈大模型團隊不僅展示了其在 AI 領域的技術實力,也爲廣大開發者提供了更爲高效的工具,助力他們在未來的 AI 開發與研究中取得更大的突破。