在全球 AI 技術不斷進步的背景下,谷歌於1月15日發佈了全新的 TranslateGemma 翻譯模型系列。這一系列模型基於其最新的 Gemma3架構,提供了3種參數規模,分別爲4B、12B 和27B,能夠支持55種核心語言的翻譯,同時還具備多模態圖像翻譯的能力。這意味着用戶不僅可以翻譯文本,還能對圖片中的文字進行翻譯,真正實現了無縫的語言交流。

根據谷歌的介紹,TranslateGemma 的推出不僅僅是一次技術的迭代,更是性能的飛躍。在嚴格的 WMT24++ 基準測試中,12B 版本的翻譯質量竟然超過了27B 基線模型,後者的參數量是其兩倍。也就是說,開發者們只需一半的算力,就能得到更高保真的翻譯結果,極大提高了翻譯的效率和響應速度。

image.png

此外,值得注意的是,體量最小的4B 模型也展現出了強大的實力,其性能已與12B 模型不相上下,尤其適合移動設備和邊緣計算環境。這一進步讓更多用戶在日常生活中能夠輕鬆體驗高質量翻譯,尤其是在出行、學習和工作中。

技術層面,TranslateGemma 的高效能得益於獨特的 “兩階段微調” 工藝。首先,谷歌通過高質量合成數據與人工翻譯數據進行監督微調,隨後引入強化學習階段,利用先進的獎勵模型引導模型生成更加自然、貼合語境的譯文。這一技術創新爲翻譯領域帶來了新的思路。

image.png

爲了適應不同的應用場景,谷歌將 TranslateGemma 細分爲不同尺寸的模型。4B 模型針對手機和邊緣設備進行了優化,12B 模型適合消費級筆記本電腦,而27B 模型則是追求極致翻譯質量用戶的理想選擇,能夠在高端 GPU 或雲端 TPU 上運行。

目前,所有模型已在 Kaggle、Hugging Face 和 Vertex AI 平臺上線,供廣大開發者和研究人員下載使用。隨着 TranslateGemma 的發佈,谷歌再次向我們展示了其在 AI 領域的領先地位,併爲語言翻譯的未來開闢了新的可能性。