在2025世界計算大會上,崑崙元 AI 正式發佈了基於昇騰(Ascend)平臺的全模態融合模型 BaiZe-Omni-14b-a2b。這一新模型具備強大的文本、音頻、圖像和視頻理解與生成能力,採用了創新的技術架構,包括模態解耦編碼、統一跨模態融合和雙分支功能設計,旨在推動多模態應用的發展。

image.png

BaiZe-Omni-14b-a2b 的設計流程清晰,涵蓋輸入處理、模態適配、跨模態融合、核心功能和輸出解碼等步驟。爲了優化計算效率,該模型在 MoE+TransformerX 架構中引入了多線性注意力層和單層混合注意力聚合層,確保了大規模全模態應用的順利實施。此外,模型的雙分支設計使其在理解和生成能力上均有顯著優勢,能夠有效處理多達10類任務並具備強大的多模態內容生成能力。

在模型的訓練過程中,崑崙元 AI 使用了豐富的高質量數據。訓練數據涵蓋了超過3.57萬億 token 的文本數據、30萬小時以上的音頻數據、4億張圖像和超過40萬小時的視頻數據,確保了單模態數據的純度和跨模態數據的對齊質量。通過差異化的數據配比,模型在不同訓練階段均能實現性能的逐步提升。

在性能方面,BaiZe-Omni-14b-a2b 在多模態理解的核心指標上表現出色,文本理解準確率達到89.3%。在長序列處理場景中,該模型的32768token 文本摘要任務的 ROUGE-L 得分爲0.521,顯著高於行業主流模型 GPT-4的0.487。此外,該模型還支持多語言文本生成和圖像、音頻及視頻的多模態生成,顯示出其強大的綜合能力。

劃重點:

🌐 ** 全模態能力 **:BaiZe-Omni-14b-a2b 具備強大的文本、音頻、圖像和視頻理解與生成能力。

📈 ** 性能突出 **:模型在文本理解和長序列處理上表現優異,ROUGE-L 得分顯著領先同類模型。

💡 ** 多領域應用 **:該模型將爲智能客服、內容創作等多個領域提供技術支持,推動 AI 技術進步。