イギリス政府は、国家データライブラリー(NDL)を通じて人工知能(AI)の発展を推進しようとしています。しかし、最近発表された調査によると、公共データセットの利用可能性が改善されない限り、この計画は厳しい課題に直面する可能性があります。オープンデータ研究所(ODI)の調査では、現時点で利用可能なデータには誤解を招くタイトルやメタデータの不足といった問題があり、実際の分析で効果的に使用することが難しいと指摘されています。
2024年の秋予算案では、政府はNDLの計画を確認し、研究者や企業に重要なデータインサイトを提供することを約束しました。これにより、経済成長や生活の質の向上が促進される見込みです。また、政府はこのプロジェクトに1億ポンドの投資を決定しており、これは2028/29財政年度までに科学・革新・技術省(DSIT)に割り当てられる19億ポンドの予算の一環です。
ODIは最近、「NDL-Lite」というプロトタイプシステムを公開しました。このシステムは10万を超える公共データセットにアクセスできます。調査では、一部のデータセットにラベルの不一致やデータの古さ、AIツールが効果的に取得できないという問題があることが明らかになりました。ODIは警告しています。権威あるデータがなければ、AIシステムはニュース記事や商業データなどの他の情報源に頼るようになり、それらの情報の正確性が保証されていない場合があると。
ODIの調査では、NDLを構築するコストは比較的低めであるものの、AI処理に適したデータへの調整作業が必要であることも強調しています。調査結果では、たとえば「犯罪」など広範な用語でも、効果的な分析が困難であることが分かっています。いくつかのデータセットは共有標準の欠如によって統合できず、分析が困難になることがあります。
オープンデータ研究所の教授エレナ・シムペル氏は、公共データの数とその実際の利用可能性の間に拡大するギャップを指摘しています。彼女は、政府がデータをタイムリーに更新し、メタデータの品質を改善しない限り、AIシステムが他のより入手しやすい情報源にアクセスしようとするだろうと述べました。
政府のスポークスマンは、政府は「公共部門データの利得を最大化」したいと考えており、サービスの効率向上と経済成長の促進を目指していると述べました。そのため、政府はデジタル公共インフラの近代化計画を通じて、データ共有と利用の使い勝手を改善しています。
国家データライブラリーは、研究者やデータサイエンティストが公共データにアクセスするための最新のプロジェクトですが、ODIの調査はこの計画が良い機会を逃すことを避ける必要があることを思い出させています。
ポイント:
🔍 NDL計画は、公共データを提供することでAIの発展を目的としていますが、データの利用可能性に関する課題があります。
💡 ODIの研究では、既存の公共データセットにラベルの不整合やデータの古さといった問題があることが示されています。
📉 データの品質が改善されなければ、AIシステムは信頼性の低い情報源に依存する可能性があります。
