螞蟻數科發佈多語種視覺大模型訓練框架，打破語言壁壘！

在香港金融科技節上，螞蟻數科推出了一項革命性的技術 ——“多語種多模態大模型訓練框架”，旨在突破當前大模型在多語言環境中應用的瓶頸。該框架特別針對資源稀缺的小語種，如埃及阿拉伯語、印尼爪哇語、巴哈薩語和巽他語，顯示出了非凡的潛力。

這一創新技術的核心在於其獨特的語言感知優化框架。該框架採用了 “以目標語言進行思考” 的機制，結合細粒度、多維度的獎勵策略和自動化數據解決方案，極大地增強了對小語種的理解與處理能力。根據測試結果，螞蟻數科的新框架在主流的多語言視覺問答（Multilingual Visual Question Answering，VQA）基準測試中，準確率較同規模的開源模型提升了約 9.5%。甚至在某些任務中，框架的表現還超過了 GPT-4o 和 Gemini-2.5-flash 等國際主流閉源模型，榮獲評測總分第一。

除了語言模型的突破，螞蟻數科還推出了圖像安全框架，這一技術結合了視覺分析與常識推理，能夠高效識別圖像中的僞造與不一致性。新框架不僅能夠精確定位篡改區域，還提供可解釋的分析，顯著提升了數字內容的風險控制能力。這一技術的成功實施將爲各種場景下的數字內容保護提供更有力的支持。

作爲螞蟻數科全球業務的核心技術，這兩項能力已經在 ZOLOZ 的文檔識別鑑真產品（RealDoc）中得到了廣泛應用，支持 119 種語言，能夠高效處理多種商務文檔、合同和證件，覆蓋保險理賠、信貸審覈及跨境貿易等多個領域。這不僅展示了螞蟻數科在多語言處理領域的領先地位，也爲全球用戶提供了更好的服務體驗。

Meta顛覆語音技術！Omnilingual ASR支持1600種語言，小語種也能被AI“聽見”

Meta發佈Omnilingual ASR系統，突破AI語音技術侷限，首次實現對1600種語言的高精度識別。系統採用“上下文學習”機制，僅需少量音頻樣本即可快速學習新語言。這一開源技術打破語言“精英壟斷”，推動數字平權，助力瀕危和小語種社區融入AI時代。

螞蟻數科推出多語種視覺大模型訓練框架，高效識別文檔僞造與邏輯矛盾

螞蟻數科在香港金融科技節推出“多語種多模態大模型訓練框架”，旨在解決大模型在多語言環境的應用瓶頸。傳統英文大模型在小語種中易出現語言錯亂和推理混亂，限制全球化發展。該框架通過優化多語種處理能力，提升模型在多樣化語言環境下的表現，推動AI技術更廣泛高效地服務於全球各行業。

螞蟻數科發佈多語種視覺大模型訓練框架，打破語言壁壘！

相關推薦

Meta顛覆語音技術！Omnilingual ASR支持1600種語言，小語種也能被AI“聽見”

螞蟻數科推出多語種視覺大模型訓練框架，高效識別文檔僞造與邏輯矛盾

Alexa+殺入音樂場景！亞馬遜用AI對話式助手三倍提升用戶聽歌時長，直指Spotify腹地

Getty在英國對Stability AI提起的訴訟遭遇重大挫折

Anthropic2028年營收或達700億美元，現金流碾壓OpenAI