12月13日、第2回CCF中国データ大会において、アリババ・データテクノロジーは自社のデータインテリジェントエージェントのキーテクノロジー「Agentar SQL」の論文、コード、モデル、および使用ガイドをオープンソース化することを発表しました。このインテリジェントエージェント技術により、非専門家でも日常言語でビジネスデータの照会や分析が可能となり、企業のデジタルトランスフォーメーションに正確で実用的なインテリジェントなデータ分析基盤を提供します。
アリババ・データテクノロジーは最初の段階として、リアルタイムテキストから構造化クエリ言語(Text-to-SQL)への変換フレームワークをオープンソース化し、開発者に対して即座に使えるデータ照会のソリューションを提供します。これにより、テキストとデータベースクエリの相互作用効率が向上します。2026年には、データベース理解と掘り下げ、業界知識の抽出、リアルタイム多ラウンドインタラクション技術のフレームワークを順次オープンソース化する予定で、意図理解、業務理解からデータ理解に至るまでの一連のデータ能力をカバーします。
記者によると、ある頭部都市銀行での試運転期間中に、アリババ・データテクノロジーのAgentar SQLの複数のツールの平均照会正確度は92%を超え、従来の照会方案より3倍以上高いことがわかりました。

今年9月25日、この技術を支援したアリババ・データテクノロジーのデータ分析インテリジェントエージェント「Agentar-Scale-SQL」は、世界で最も権威ある自然言語から構造化クエリ言語への変換(NL2SQL)評価基準であるBIRD-SQLで首位を獲得しました。グーグルなどの国内外メーカーを上回りました。現在、このエージェントは正確度ランクおよび実行効率ランクの両方で首位を維持しており、2か月以上続いている状態です。
BIRD-SQLでは、AIモデルが自然言語の質問をSQLに変換し、本格的な大規模な生産用データベースで安定して実行することを要求されます。そのデータセットは金融、電力、医療など37の実際の業界シナリオをカバーしており、合計33GB、1万を超える高複雑度のクエリタスクを含んでおり、世界で最も難しいNL2SQLテストとされています。

研究機関によると、2025年の世界ビジネスインテリジェンス市場規模は474.8億ドルに達すると予測されています。2025年の中国のビジネスインテリジェンスと分析ソフトウェア市場規模は12億ドルと予測されており、2028年には17.9億ドルに達すると予想され、今後5年間の年平均成長率(CAGR)は12.7%となる見込みです。これは、企業のインテリジェンス技術構築における重要な投資分野となっています。
現在、中国企業はビジネスインテリジェンスと分析製品の使用深度に大きな違いがあり、多くはレポート、ドライバーソーン、ダッシュボード、データスクリーンなどのデータ視覚化と簡単な分析ニーズに集中しています。一方で、正確性を保ちながらも、実際に生産環境における利用可能性を向上させることは、NL2SQLが産業内でスケーラブルに展開される普遍的な課題とされています。
アリババ・データテクノロジーのAI技術責任者であるチャン・ポン氏は、会議でNL2SQLが実際の導入において直面する4つの深刻な課題を指摘しました。それは、曖昧で多義的な人間の口語を理解すること、膨大な業界専門知識を組み込むこと、複雑なデータベース構造と関連を解析すること、そして正確で誤りのない複雑なSQL文を生成することです。これらの課題は、単なるモデルの「カスタム化」では企業向けアプリケーションの信頼性と正確性に満たすことはできないことを示しています。
例えば、金融分野の従業員は、複雑なビジネスルールと複数の条件の組み合わせを考慮しながらデータ照会を行う必要があります。また、業務管理において、非専門のデータ分析担当者が口語で質問する場合、背後の製品が業界用語や尋ねたい意図を正しく理解し、データベースのフィールドと正確にマッチングすることが必要です。それによって、真実で正確な結果が得られます。
チャン・ポン氏は、BIRD-SQLは主にSQLの複雑さ生成能力(オンライン拡張Online Scaling)を評価していますが、実際の産業用途に適合したNL2SQLやデータインテリジェントエージェント技術を実現するためには、さらに包括的な能力の構造が必要です。オンライン拡張に加えて、以下の要素も含まれます:
1. オフライン拡張(Offline Scaling):データベースの深い理解と知識の構造化。
2. 人間とコンピュータのインタラクション(Human Interaction):エージェントが自身の不確実性を認識し、ユーザーに意図を明確にするよう積極的に尋ねて、白箱化され、誤り訂正可能な協力を実現。
3. 自己進化(Self Evolution):「記憶」による最適化、ユーティリティ(UDF)の作成と再利用などの「調整不要」技術を通じて、エージェントがエラーから学び、継続的に改善し、大量のラベル付きデータや専門家の調整に依存しないようにします。
