近日, 螞蟻數科在香港金融科技節上發佈了一項革命性的技術 ——“多語種多模態大模型訓練框架”,旨在解決當前大模型在多語言環境中的應用瓶頸。隨着人工智能技術的飛速發展,大模型正逐漸成爲提升各行業效率的重要工具。然而,傳統以英文爲母語的大模型在小語種環境中表現不佳,常常面臨 “語言錯亂” 和推理信息混亂的問題,這嚴重製約了其全球化應用。

QQ20251104-144314.png

爲應對這一挑戰,螞蟻數科的研究團隊開發了這一新框架,並在多文化多語言視覺問答基準測試(CVQA)中取得了顯著成果。該框架在埃及阿拉伯語、印尼爪哇語、巴哈薩語及巽他語等資源稀缺的小語種上表現尤爲突出,展現出卓越的多語言識別能力,成功躋身榜首。

這一突破的核心在於創新的語言感知優化框架。該框架通過 “以目標語言進行思考” 的機制,結合細粒度多維度的獎勵策略與自動化數據解決方案,實現在小語種的深度理解和處理。根據測試結果,與同等規模的開源模型相比,該框架在主流多語言視覺問答(Multilingual Visual Question Answering, VQA)基準測試中準確率提升了約9.5%,在部分任務中甚至優於 GPT-4o 和 Gemini-2.5-flash 等國際主流閉源模型,獲得評測總分第一

在安全能力方面,螞蟻數科還推出了圖像安全框架,結合視覺分析與常識推理的僞造識別路徑,能夠高效識別圖像中的視覺不一致性和邏輯矛盾。這一技術不僅能夠定位篡改區域,還能進行可解釋分析,顯著提升數字內容的風險控制能力。

作爲螞蟻數科全球業務的核心技術,這兩項能力已在 ZOLOZ 文檔識別鑑真產品(RealDoc)中實現了規模化應用,支持119種語言,能夠高效處理多語種商務文檔、合同和證件,覆蓋保險理賠、信貸審覈及跨境貿易等多個場景。