人工知能(AI)分野において、知識データベースから正確に情報を取得することは長年の課題でした。最近、人工知能企業Anthropicは、知識検索の精度向上を目指した「コンテキスト検索」という新手法を発表しました。この手法は、検索時により多くのコンテキスト情報を追加することで、AIシステムがより正確な回答を提供できるようにします。

既存の検索強化生成(RAG)システムは、通常、ドキュメントを小さな断片に分割してインデックスを作成するため、重要なコンテキスト情報が失われる可能性があります。Anthropicのソリューションは、各断片の前に100文字以下の短いドキュメントの概要を追加することです。例えば、元のテキスト断片「同社の収益は前四半期比で3%増加した」は、コンテキスト処理後、「この断片はACME社の2023年第2四半期のSEC文書からのものです。前四半期の収益は3.14億ドルで、同社の収益は前四半期比で3%増加しました。」となります。Anthropicは、この方法により、情報検索のエラー率を最大49%削減できると述べています。さらに結果の再ランキングを組み合わせることで、精度の向上は67%に達する可能性があります。
さらに興味深いことに、コーネル大学の研究もこのコンテキスト検索の手法を支持しています。「コンテキストドキュメント埋め込み(CDE)」と呼ばれる同様の技術が提案されました。この手法は、トレーニングデータを再編成し、各バッチに類似しているが区別が難しいドキュメントを含めることで、モデルがより微妙な違いを学習するように促します。さらに、研究者らは、近接するドキュメントの情報を埋め込みに直接組み込む2段階エンコーダーを開発しました。これにより、モデルは相対語頻度やその他のコンテキスト手がかりを考慮できるようになります。
「大規模テキスト埋め込みベンチマーク(MTEB)」のテストでは、CDEモデルはサイズカテゴリで最高の成績を収めました。実験では、CDEは金融や医療などの分野の小さな特定のデータセットで特に優れており、分類、クラスタリング、セマンティック類似性などのタスクで優れたパフォーマンスを示しました。ただし、研究者らは、CDEが数十億のドキュメントを持つ大規模な知識ベースにどのような影響を与えるかはまだ不明であり、最適なコンテキストサイズと選択に関する研究はまだ深掘りが必要であると指摘しています。
要点:
🌟 Anthropicの「コンテキスト検索」手法は、情報検索のエラー率を最大49%削減し、他の技術と組み合わせることで精度をさらに向上させることができます。
📊 コーネル大学の「コンテキストドキュメント埋め込み」手法は、特定の分野で強力な利点を示しており、分類とクラスタリングのタスクを効果的に改善できます。
🔍 これらの手法を大規模な知識ベースに適用する方法、最適なコンテキスト処理戦略を見つけるためには、さらなる研究が必要です。
