新たな研究によると、AIモデルがウェブ上の訓練データへのアクセスを失いつつあることが明らかになりました。データソースイニシアチブ(Data Provenance Initiative)によるこの研究は、2023年4月から2024年4月にかけて、AI訓練データにおいて完全に遮断されたコンテンツの割合が約1%から5~7%に増加したことを示しています。この傾向は、将来のAIモデルがより少なく、偏りが強く、時代遅れの情報しか学習できない可能性を示唆しています。

コード インターネット パソコン

画像出典:AI生成画像、画像ライセンス提供元Midjourney

この研究では、人気のAI訓練データセット(C4、RefinedWeb、Dolmaなど)のソースとなっている14,000のウェブドメインのrobots.txtファイルと利用規約を分析しました。

その結果、AIデータへのアクセスを制限している主なソースは、ニュースサイト、フォーラム、ソーシャルメディアプラットフォームであることが判明しました。特にニュースサイトでは、遮断率が3%から45%に急増しています。これは、AI訓練データにおける高品質なニュースコンテンツの割合が減少する一方、低品質の企業やECサイトのコンテンツが増加する可能性を示しています。

この現象は、高品質なデータが優れたモデルの訓練に不可欠であるため、AI開発者にとって大きな課題です。しかし、高品質なコンテンツ提供者は、AI企業とのライセンス契約を通じて新たな収益源を見出すことも可能です。

MetaのCEOであるマーク・ザッカーバーグも、優れたAIモデルを訓練するための十分な著作権データの取得は、ほぼ不可能か非常に高価であると述べています。

フェアユースの判決がない限り、この状況はさらに悪化する可能性があります。OpenAIは最近、複数の出版社と数百万ドル規模の契約を結び、リアルタイム表示とAI訓練のためにコンテンツを取得しています。法的判断に大きな変化がない限り、他の企業も同様の行動をとると予想されます。

要点:

  • 🛑 データアクセス制限の強化:2023年から2024年にかけて、AI訓練データで遮断されたコンテンツの割合が大幅に増加し、ニュースサイトの遮断率は3%から45%に上昇しました。

  • 📉 高品質データの減少:AI訓練データにおける高品質なニュースコンテンツの割合が低下し、低品質の企業やECサイトのコンテンツに取って代わられる可能性があります。

  • 💸 高コストとライセンスの問題:AI訓練に必要なデータの取得には高額な費用がかかり、OpenAIやMetaは課題に直面しています。高品質なコンテンツ提供者は、ライセンス契約を通じて新たな収益源を見出す可能性があります。