グローバルなAI翻訳技術の急速な発展の背景で、初のアプリケーション指向型AI翻訳評価リスト「TransBench」が正式に公開されました。このリストは、アリインターナショナルAIビジネスチーム、上海人工知能実験室、北京語言大学が共同で開発したもので、業界に標準化された翻訳品質評価を提供することを目的としています。
従来の翻訳評価と異なり、TransBenchは幻覚率、文化的なタブー表現、敬語規範などの新しい指標を取り入れており、大規模モデル翻訳における重要な問題に焦点を当てています。これらの指標は、現実の使用シーンからのフィードバックに基づいており、翻訳の実用性と文化的適応性を反映することを目指しています。例えば、翻訳結果は流暢であっても、「作り話」のような情報が含まれている場合、「幻覚」としてマークされます。また、翻訳が現地の文化に合わない場合や、必要な礼儀表現がない場合も評価結果に影響を与えます。
最新のリストに基づく評価結果では、GPT-4oが翻訳AIの「頂点」としての地位を維持しており、複数言語での翻訳で高い総合得点を獲得しました。それに続くのはDeepL TranslateとGPT-4-Turboです。DeepL Translateは機械翻訳専用モデルとして設計されており、先月発表された最新バージョンにより翻訳品質が大幅に向上しました。特にEC業界では、DeepSeek-R1のパフォーマンスも際立ち、特定分野での競争力を見せています。
文化特性に関しては、Qwenシリーズモデルが注目を集め、Qwen2.5-0.5B-InstructとQwen2.5-1.5B-Instructがトップ2にランクインしました。このシリーズモデルは複数の研究機関によって共同開発され、多くの言語に対応し、翻訳の文化的適応性を向上させることが目標です。
中国語翻訳においても、GPT-4oが再び第1位となり、DeepSeek-V3とClaude-3.5-Sonnetがそれに続きました。特にEC分野では、DeepSeek-V3の優れたスコアが広く注目を集めています。
TransBenchの評価方法とデータセットはすでにオープンソース化されており、多くのAI翻訳企業が参加し、横断的な比較とパフォーマンス評価を行うことを奨励しています。これにより業界の標準化が促進され、AI翻訳技術のさらなる発展を支えています。
アリインターナショナルAIビジネスチームは、翻訳技術の進歩に伴い業界の翻訳モデルに対する要求が厳しくなっていることに触れ、TransBenchはそのニーズに応えるための評価基準だと述べています。今後もアリインターナショナルはAI技術の応用に力を入れ、より多くの企業がグローバル展開を実現する手助けをしていく計画です。
AI翻訳市場の競争がますます激化する中、TransBenchの公開は業界にとって明確な指針を示すものであり、ユーザーが翻訳サービスを選ぶ際に信頼できる基準を提供します。