2月11日,螞蟻集團開源發佈全模態大模型 Ming-flash-omni2.0。在多項公開基準測試中,該模型在視覺語言理解、語音可控生成、圖像生成與編輯等關鍵能力表現突出,部分指標超越 Gemini2.5Pro,成爲開源全模態大模型性能新標杆。

Ming-flash-omni2.0也是業界首個全場景音頻統一生成模型,可在同一條音軌中同時生成語音、環境音效與音樂。用戶只需用自然語言下指令,即可對音色、語速、語調、音量、情緒與方言等進行精細控制。模型在推理階段實現了 3.1Hz 的極低推理幀率,實現了分鐘級長音頻的實時高保真生成,在推理效率與成本控制上保持業界領先。

QQ20260211-113746.png

(圖說:Ming-flash-omni 2.0 在視覺語言理解、語音可控生成、圖像生成與編輯等核心領域實測表現均已達到開源領先水準)

業內普遍認爲,多模態大模型最終會走向更統一的架構,讓不同模態與任務實現更深層協同。但現實是,“全模態”模型往往很難同時做到通用與專精:在特定單項能力上,開源模型往往不及專用模型。螞蟻集團在全模態方向已持續投入多年,Ming-omni 系列正是在這一背景下持續演進:早期版本構建統一多模態能力底座,中期版本驗證規模增長帶來的能力提升,而最新 2.0 版本通過更大規模數據與系統性訓練優化,將全模態理解與生成能力推至開源領先水平,並在部分領域超越頂級專用模型。

此次將 Ming-flash-omni2.0開源,意味着其核心能力以“可複用底座”的形式對外釋放,爲端到端多模態應用開發提供統一能力入口。

Ming-flash-omni2.0基於 Ling-2.0架構(MoE,100B-A6B)訓練,圍繞“看得更準、聽得更細、生成更穩”三大目標全面優化。視覺方面,融合億級細粒度數據與難例訓練策略,顯著提升對近緣動植物、工藝細節和稀有文物等複雜對象的識別能力;音頻方面,實現語音、音效、音樂同軌生成,支持自然語言精細控制音色、語速、情緒等參數,並具備零樣本音色克隆與定製能力;圖像方面,增強複雜編輯的穩定性,支持光影調整、場景替換、人物姿態優化及一鍵修圖等功能,在動態場景中仍保持畫面連貫與細節真實。

百靈模型負責人周俊表示,全模態技術的關鍵在於通過統一架構實現多模態能力的深度融合與高效調用。開源後,開發者可基於同一套框架複用視覺、語音與生成能力,顯著降低多模型串聯的複雜度與成本。未來,團隊將持續優化視頻時序理解、複雜圖像編輯與長音頻生成實時性,完善工具鏈與評測體系,推動全模態技術在實際業務中規模化落地。

目前,Ming-flash-omni2.0 的模型權重、推理代碼已在 Hugging Face 等開源社區發佈。用戶也可通過螞蟻百靈官方平臺 Ling Studio 在線體驗與調用。