グローバルな人工知能競争が激化する中、上海交通大学と深勢科技チームは協力して、「人類最後の試験(HLE)」で32.1点という驚異的な成績を達成し、初めて30点の大関を突破しました。このテストセットは非常に高い難易度で知られており、かつてモデルのスコアが10点を越えたことはありませんでした。最近でも最高得点は26.9点にとどまり、Kimi-ResearchとGemini Deep Researchが並んで記録を樹立しています。
この研究では、「X-Master」というツール強化型の推論インテリジェントエージェントと、マルチエージェントワークフローシステム「X-Masters」が登場します。このソリューションは技術的に優れており、チームはそれをオープンソースとして公開し、AI分野での協力と発展をさらに推進しています。
X-Masterのコアコンセプトは、人間の研究者が問題を解決する動的なプロセスを模倣することです。内部の推論と外部のツールの間でシームレスに切り替えることができます。解決できない問題に遭遇した場合、X-Masterは行動計画をコードとして書き、NumPyやSciPyなどのツールを使ってこれらのコードを実行し、結果をインテリジェントエージェントの知識体系に統合します。このプロセスは効率的なフィードバックループを形成し、インテリジェントエージェントが推論プロセスを継続的に最適化できるようにします。
X-Mastersの設計はさらに複雑で、分散-スタック形式のエージェントワークフローを使用しており、推論の広さと深さを向上させます。分散段階では、複数のソルバーが並列で作業し、異なる解決策を生成します。同時に、批判者エージェントがこれらの解決策を評価・改善します。その後、リライターエージェントがすべての出力をより良い解決策にまとめ、最終的に選択者エージェントが最適な答えを選択します。
このテストにおいて、X-Mastersは生物学/医学カテゴリーや他の分野でのパフォーマンスも特に目立ち、既存のエージェントシステムを上回り、複雑な問題に対する強大な能力を示しています。
「人類最後の試験」は今年初頭にAIセキュリティセンターとScale AIによって開始され、AIシステムの知能レベルを評価することを目的としています。問題は500以上の機関に所属する1,000人以上の学者によって提供されており、非常に高い難易度を持っています。