最近、騰訊優圖ラボは正式にYoutu-Embeddingというテキスト表現モデルをオープンソース化しました。このモデルは、企業向けのスマートカスタマーサービスや知識ベース管理などの分野での効率を向上させることが目的です。このモデルは情報の正確な抽出により、大規模モデルが特定の分野で誤った生成を行う問題を回避しています。この問題は特に企業向けアプリケーションで頻繁に発生し、ユーザーが特定の質問をするとき、一般的な文脈に基づいて関係ない回答が出ることがあります。

image.png

Youtu-Embeddingは、モデルが異なる分野で性能が低下する現象に対して効果的に対応できます。このモデルは汎用的な文脈で訓練されていますが、法律や医療などの専門分野での適用効果は期待できません。騰訊はこの課題に対処するために、ゼロからこのモデルを訓練し、最大で3兆のトークンを使用した中英文の文脈を活用して、モデルの言語理解能力を堅固に構築しました。また、豊富な人工ラベル付きデータを提供し、モデルが実際のビジネスシナリオでの適用性を確保しています。

ユーザーの本音をよりよく理解するために、騰訊は大規模な弱教師あり学習を導入しました。このトレーニング方法により、Youtu-Embeddingは表現が異なっても意味が似ている文を識別でき、語義空間内で正確なマッピング関係を構築できます。例えば、「この製品の保証期間はどのくらいですか?」と「壊れた場合は無料で修理できますか?」という2つの質問は、表現方法が異なりますが、どちらも保証ポリシーについて尋ねています。

マルチタスクトレーニングにおいて、騰訊はイノベーティブなファインチューニングフレームワークを開発し、モデルがさまざまなタスクのニーズに適応できるようにしました。モデルは統一されたデータ形式と差別化された損失関数を使用しており、テキスト類似度、検索、分類などのタスクの能力を効果的に向上させます。また、動的サンプリングメカニズムにより、モデルはトレーニング中に適切な注意を配分し、さまざまなタスクでバランスよく発展することができます。

Youtu-Embeddingはすでに中国語の意味評価ベンチマークCMTEBで77.46の高いスコアを獲得し、中国語の意味モデルの中で最も優れたものの一つとなっています。このモデルは、スマートQ&A、コンテンツ推薦、知識管理など多様なシナリオに適用可能です。特に、検索強化生成システム(RAG)の構築において大きな可能性を示しています。

騰訊優図ラボは継続的にオープンソース技術の開発に取り組んでおり、Youtu-Embeddingに加えて、Youtu-AgentやYoutu-GraphRAGなどのプロジェクトもリリースしており、開発者に多くのツールとリソースを提供し、AIアプリケーションの急速な発展を促進しています。

プロジェクト:https://github.com/TencentCloudADP/youtu-embedding

ポイント:

🌟 Youtu-Embeddingは騰訊がオープンソース化したテキスト表現モデルで、企業向けスマートカスタマーサービスや知識ベース管理の効率を向上させることが目的です。

🔍 このモデルは大規模な弱教師あり学習とマルチタスク協調進化を通じて、ユーザーの意図をより深く理解できるようにしています。

📈 中国語の意味評価ベンチマークCMTEBで、Youtu-Embeddingは77.46の高いスコアを取得し、その強力な性能と応用可能性を示しています。