中國AI翻譯技術再攀高峯。東北大學“小牛翻譯”團隊近日正式開源其最新大模型——NiuTrans.LMT(Large-scale Multilingual Translation),一舉實現60種語言、234個翻譯方向的全覆蓋,不僅以中文與英文爲雙核心構建全球語言橋樑,更在藏語、阿姆哈拉語等29種低資源語言上取得顯著突破,爲全球語言平等邁出關鍵一步。

雙中心架構,打破“英語霸權”
區別於多數以英語爲唯一樞紐的翻譯模型,NiuTrans.LMT採用中-英雙中心設計,支持中文↔58種語言、英文↔59種語言的高質量直譯,避免“中文→英文→小語種”的二次失真。這一架構尤其利好“一帶一路”沿線國家與中文使用者的直接溝通,推動跨文化交互去中介化。

三層語言覆蓋,兼顧效率與公平
模型精準劃分語言資源層級:
13種高資源語言(如法語、阿拉伯語、西班牙語):翻譯流暢度媲美人類;
18種中資源語言(如印地語、芬蘭語):在專業術語與語法結構上高度準確;
29種低資源語言(含藏語、斯瓦希里語、孟加拉語等):通過數據增強與遷移學習,實現從“不可譯”到“可用譯”的跨越。
兩階段訓練,性能登頂FLORES-200
NiuTrans.LMT在權威多語言基準FLORES-200上表現卓越,穩居開源模型榜首。其成功源於創新的兩階段訓練流程:
繼續預訓練(CPT):在900億tokens的多語言語料上均衡學習,確保小語種不被淹沒;
監督微調(SFT):整合FLORES-200、WMT等高質量平行語料(56.7萬條樣本,覆蓋117方向),精調翻譯準確性與風格一致性。
四大規模開源,從科研到商用全覆蓋
爲滿足不同場景需求,團隊同步開源0.6B、1.7B、4B、8B四種參數規模模型,全部可在GitHub與Hugging Face免費下載。輕量版可在消費級GPU運行,適合移動端部署;8B版本則面向企業級高精度翻譯場景,支持API集成與私有化部署。
AIbase認爲,NiuTrans.LMT的發佈不僅是一項技術成果,更是對“語言多樣性保護”的實際行動。當AI能精準翻譯藏語詩歌、非洲諺語或北歐古語,技術才真正具備人文溫度。東北大學這一開源舉措,正爲全球構建一個無語言壁壘的數字未來奠定基石。
項目地址:https://github.com/NiuTrans/LMT
