在全球 AI 翻譯技術迅速發展的背景下,首個應用型 AI 翻譯測評榜單 TransBench 正式發佈。這一榜單由阿里國際 AI Business 團隊、上海人工智能實驗室和北京語言大學聯合推出,旨在爲行業提供標準化的翻譯質量評估。

傳統翻譯評測不同,TransBench 引入了幻覺率、文化禁忌詞和敬語規範等新指標,專注於大模型翻譯中的關鍵問題。這些指標來源於真實使用場景的反饋,力求反映翻譯的實用性和文化適應性。比如,翻譯結果雖然流暢,但若存在 “編造” 信息的情況,便會被標記爲 “幻覺”;同樣,翻譯不符合當地文化或缺乏必要的禮貌用語,也會影響評估結果。

QQ20250523-110036.png

根據榜單的最新評測結果,GPT-4o 穩居翻譯 AI 的 “天花板”,在多語言翻譯中表現出色,綜合得分最高。緊隨其後的是 DeepL Translate 和 GPT-4-Turbo。其中,DeepL Translate 是專爲機器翻譯設計的模型,其最新版本剛於上月發佈,顯著提升了翻譯質量。在電商行業中,DeepSeek-R1的表現同樣突出,顯示了其在特定領域的競爭力。

在文化特性方面,Qwen 系列模型表現亮眼,Qwen2.5-0.5B-Instruct 和 Qwen2.5-1.5B-Instruct 分列前兩位,展示了其在跨文化翻譯中的優勢。此係列模型是由多個研究機構聯合開發,支持多種語言,旨在提升翻譯的文化適應性。

在中文翻譯方面,GPT-4o 再次名列第一,DeepSeek-V3和 Claude-3.5-Sonnet 緊隨其後。尤其在電商領域,DeepSeek-V3以其優異的得分引起了廣泛關注。

TransBench 的評測方法和數據集現已開源,鼓勵各大 AI 翻譯機構參與,進行橫向比較和性能評估。此舉不僅爲行業標準化提供了基礎,也推動了 AI 翻譯技術的進一步發展。

阿里國際 AI Business 團隊表示,隨着翻譯技術的不斷進步,行業對翻譯模型的要求愈加嚴格,TransBench 正是響應這一需求而推出的評測標準。未來,阿里國際還將繼續致力於 AI 技術的應用,幫助更多企業實現全球化發展。

隨着 AI 翻譯市場的競爭愈演愈烈,TransBench 的發佈無疑爲行業提供了一個清晰的標杆,也讓用戶在選擇翻譯服務時多了一項可靠的參考標準。