在香港金融科技節上,螞蟻數科推出了一項革命性的技術 ——“多語種多模態大模型訓練框架”,旨在突破當前大模型在多語言環境中應用的瓶頸。該框架特別針對資源稀缺的小語種,如埃及阿拉伯語、印尼爪哇語、巴哈薩語和巽他語,顯示出了非凡的潛力。
這一創新技術的核心在於其獨特的語言感知優化框架。該框架採用了 “以目標語言進行思考” 的機制,結合細粒度、多維度的獎勵策略和自動化數據解決方案,極大地增強了對小語種的理解與處理能力。根據測試結果,螞蟻數科的新框架在主流的多語言視覺問答(Multilingual Visual Question Answering,VQA)基準測試中,準確率較同規模的開源模型提升了約 9.5%。甚至在某些任務中,框架的表現還超過了 GPT-4o 和 Gemini-2.5-flash 等國際主流閉源模型,榮獲評測總分第一。
除了語言模型的突破,螞蟻數科還推出了圖像安全框架,這一技術結合了視覺分析與常識推理,能夠高效識別圖像中的僞造與不一致性。新框架不僅能夠精確定位篡改區域,還提供可解釋的分析,顯著提升了數字內容的風險控制能力。這一技術的成功實施將爲各種場景下的數字內容保護提供更有力的支持。
作爲螞蟻數科全球業務的核心技術,這兩項能力已經在 ZOLOZ 的文檔識別鑑真產品(RealDoc)中得到了廣泛應用,支持 119 種語言,能夠高效處理多種商務文檔、合同和證件,覆蓋保險理賠、信貸審覈及跨境貿易等多個領域。這不僅展示了螞蟻數科在多語言處理領域的領先地位,也爲全球用戶提供了更好的服務體驗。
