螞蟻集團百靈大模型系列更新 Ling-2.6-flash正式開源

螞蟻集團旗下的百靈大模型系列於今日迎來重要更新，Ling-2.6-flash正式向全球開發者開放。爲了適配差異化的硬件環境並降低部署門檻，該模型同步推出了 BF16、FP8以及 INT4等多個精度版本，旨在爲開發者提供更具彈性的推理選擇。

作爲一款總參數量達到104B、激活參數量爲7.4B 的 Instruct 模型，Ling-2.6-flash在正式官宣前，曾以“Elephant Alpha”的匿名身份在 OpenRouter 平臺先行測試。在爲期兩週的試運行中，研發團隊吸收了大量真實反饋，對模型進行了針對性優化，顯著增強了中英文自然切換的流暢度，並使其在主流編程框架中的適配表現更加出色。

技術亮點:混合架構與極致效率

Ling-2.6-flash的核心競爭力集中體現在其獨特的架構設計與極高的運行效率上:

混合線性架構: 通過底層的計算優化，模型展現了極佳的推理速度。在4卡 H20環境下，其推理速度最高可達340tokens/s。在 Prefill（預填充）吞吐指標上，更是達到了 Nemotron-3-Super 的2.2倍，大幅縮短了響應延遲。
出色的“智效比”: 研發團隊在訓練過程中對 Token 效率進行了深度校準。評測數據顯示，完成同等質量的任務，Ling-2.6-flash僅需消耗約15M tokens，這一數值僅爲同類競品的十分之一，極大地降低了商用成本。

場景深耕:定向增強智能體能力

針對當前大模型應用最廣泛的 Agent（智能體）場景，Ling-2.6-flash進行了專項強化。無論是在複雜的工具調用、邏輯多步規劃，還是最終的任務執行力上，該模型都表現穩健。在 BFCL-V4、SWE-bench 等多項行業主流評測中，即便面對激活參數規模更大的模型，Ling-2.6-flash依然能夠維持相近甚至達到行業頂尖（SOTA）的水平。

目前，開發者已可通過 Hugging Face 和 ModelScope（魔搭社區）獲取該模型的開源資源，進一步探索其在各類行業應用中的潛力。

NVIDIA 發佈 Nemotron 3 Embed 系列，8B 版本登頂 RTEB 檢索基準

NVIDIA推出Nemotron3Embed嵌入向量模型系列，專爲生產級RAG、智能體檢索、代碼檢索和記憶場景設計。8B版本在RTEB基準測試中排名第一，成爲性能最強的開源嵌入模型。系列包含三個開放檢查點：精度優先的Nemotron-3-Embed-8B-BF16、輕量化的1B-BF16版，以及針對Blackwell架構優化的1B-NVFP4四比特版本，所有模型均採用雙向注意力機制。

螞蟻集團百靈大模型系列更新 Ling-2.6-flash正式開源

技術亮點:混合架構與極致效率

場景深耕:定向增強智能體能力

相關推薦

NVIDIA 發佈 Nemotron 3 Embed 系列，8B 版本登頂 RTEB 檢索基準

銀河通用機器人創始人王鶴： 2028 年，具身智能的 “ChatGPT 時刻” 即將來臨！

超低延遲 AI 對話神器！Wan-Streamer v0.2 讓你與 AI 零距離溝通

文遠知行推出物理 AI 大模型 WITT

百度沈抖：每位員工每月發 1000 元額度自由體驗主流大模型，強制推行AI辦公難見效