グローバル化の進展に伴い、ニューラル機械翻訳(NMT)技術は、言語間のコミュニケーションにおいてますます重要な役割を果たしています。現在の翻訳ツールは、技術文書や簡単なテキストの処理において優れた性能を示していますが、文学作品翻訳においては依然として多くの課題に直面しています。文学作品には、比喩や隠喩など、文化や感情豊かな表現が頻繁に含まれており、従来の翻訳システムではその深い意味を正確に伝えることが難しいことが多々あります。

image.png

この課題を克服するため、テンセント研究チームはDRT-o1という新しい翻訳システムを発表しました。このシステムには、DRT-o1-7BとDRT-o1-14Bの2つのバージョンがあります。これらのモデルはQwen2.5をベースに構築されており、比喩や隠喩の翻訳に特化した新しいマルチエージェントフレームワークが導入されています。研究チームは、グーテンベルク・プロジェクトから約400冊の公共ドメインの英語書籍を収集し、577,600個の文を抽出し、その中から比喩や隠喩を含む63,000個の文を選別してトレーニングデータとしました。

DRT-o1システムは、翻訳者、アドバイザー、評価者の3つの役割からなる協調的なアプローチを採用しています。このマルチエージェントフレームワークのワークフローは、まず原文のキーワードを特定し、個別に翻訳することで、文脈の正確性を確保することから始まります。予備翻訳が生成された後、複数回の改良と評価を経て、最終的に流暢で理解しやすい翻訳が作成されます。このシステムは、文学作品を翻訳する際に、その文化的含みと繊細な感情をより適切に捉えることができます。

実験の結果、DRT-o1-7BのBLEUスコアは8.26ポイント向上し、COMETスコアは3.36ポイント向上しました。これは、先行モデルであるQwen2.5-7B-Instructを上回る結果です。DRT-o1-14Bも同様に優れた性能を示し、BLEUスコアは7.33ポイント、COMETスコアは1.66ポイント向上しました。これらの結果は、DRT-o1が既存のモデルを凌駕する文学翻訳性能を持っていることを示しており、特に7Bバージョンは、より大規模なQwQ-32Bモデルをも上回っています。

image.png

DRT-o1システムは、マルチエージェントフレームワークとロングチェーン推論手法を導入することで、ニューラル機械翻訳分野に画期的な進歩をもたらしました。翻訳の正確性と流暢性を向上させただけでなく、複雑な文学テキストの翻訳のための新しいソリューションを提供しています。

プロジェクト入口:https://github.com/krystalan/DRT-o1

要点:  

🌟 DRT-o1システムは、7Bと14Bの2つのバージョンがあり、比喩や隠喩の翻訳を最適化するマルチエージェントフレームワークを採用しています。  

📚 研究チームは、400冊の公共ドメインの書籍から63,000個の文学的な文を抽出して選別し、トレーニングデータとしました。  

🚀 DRT-o1は、BLEUスコアとCOMETスコアで大幅な向上を示し、強力な文学翻訳能力を備えています。