急速な発展を遂げている人工知能において、大規模言語モデル(LLM)の検索および推論能力を向上させる方法が研究の注目を集めています。最近、アリの通義研究所は、「ZeroSearch」という新しいフレームワークを提案しました。このフレームワークにより、大型言語モデルが自ら検索エンジンをシミュレーションでき、実際の検索エンジンを使用せずに推論能力を向上させることができます。

従来の検索エンジンは強力ですが、大規模モデルの訓練時にその出力の品質が予測不能な場合があり、それが訓練過程でのノイズや不安定さにつながることがあります。また、リアルタイムな検索エンジンのAPI呼び出しには莫大なコストがかかり、大規模な強化学習の訓練は現実的ではありません。ZeroSearchの登場により、これらの問題が解決されました。このフレームワークは、シミュレートされた検索環境と段階的なノイズ耐性訓練を通じて、リアルタイムな検索エンジンとのインタラクションなしに学習を可能にします。

通義 Qwen (4)

ZeroSearchの核心となるのは、少量のラベル付きデータを使った強化学習(RL)で大規模モデルを微調整し、有用なドキュメントや干渉ドキュメントを生成する能力です。訓練プロセスでは、モデルがリアルな検索エンジンのスタイルに似たコンテンツを生成しながら、さまざまな品質のドキュメントにも適応する能力を身につけます。このような動的な調整能力により、モデルはより複雑な検索タスクに直面しても迅速に対応し、バランスを見つけることができるようになります。

さらに、ZeroSearchはコースウェア(段階的)学習の手法を取り入れています。訓練初期には高品質なドキュメントが提供され、訓練が進むにつれてノイズを含んだドキュメントが混入されます。徐々に難易度を上げるこの戦略により、モデルの推論能力が向上し、訓練の安定性と効果も強化されます。訓練後、モデルは高品質と低品質のドキュメントから最適な検索戦略を見つけ出すことができます。

研究によると、ZeroSearchは複数の質問応答データセットで優れたパフォーマンスを示し、特に単一ジャンプとマルチジャンプの質問応答タスクでは、従来の方法と比較して顕著な優位性があります。これは、ZeroSearchが単純な質問だけでなく、より複雑なクエリにも正確な回答を提供できるということを意味します。

ZeroSearchは、大規模モデルの自己学習に新しい道を開き、検索エンジンへの依存をなくし、大規模な強化学習訓練を経済的かつ現実的に実行可能にしました。将来、ZeroSearchはLLMの検索能力と適用範囲のさらなる向上に大きな役割を果たすことが期待されています。