近年、人工知能技術の急速な発展に伴い、大規模なAIモデルのトレーニングデータのソース問題が業界で注目を集めている。多くの著名企業がAIモデルを構築する際、明らかに著作権侵害の内容を無許可で使用しているように思われる。「秘伝のレシピ」は法律的な論争を引き起こし、シリコンバレーのテクノロジー大手を風雲急変の中心に押し上げた。
2023年、ニューヨークタイムズはOpenAIとマイクロソフトに対して初めて訴訟を提起し、この法律闘争の幕を開けた。その後、MetaはLlamaモデルが盗版書籍を使用しているとして集団訴訟を受け、AnthropicもClaudeモデルのトレーニングデータについて指摘された。すべての主要プレイヤーがほぼ同時に法的課題に直面しており、著作権保護作品を無許可でAIトレーニングデータとして使用することは「適正利用」に該当するのかどうかが問われている。
2025年6月、アンソニック事件における裁判所の裁定は重要なサインとなった。モデルトレーニング自体は高度に「変革的」な使用と見なされる可能性があるものの、データソースが盗版であれば、基本的には著作権侵害の責任を免れることはできない。アンソニックには最大750億ドルの賠償が予想され、そのニュースはすべてのAI企業を震撼させた。
データの需要に対応するために、各モデル会社はさまざまな「独創的な」方法でデータを取得しており、中には法律の境界線を越えているものもある。例えば、OpenAIはネットワーククローラーを用いて広範囲にインターネットコンテンツを収集し、収集中に著作権情報を削除することさえあった。高品質なテキストリソースが次第に枯渇した後、AI企業はビデオや紙の本などの他の形式のデータに転向し、技術手段を用いて抽出していた。
また、一部の企業は盗版書籍を直接使用することを選択した。例えば、MetaはLlamaモデルのトレーニングにおいて、「シャドウ図書館」からの盗版書籍を使用したとして指摘されている。これとは対照的に、アップルなどの保守派企業は、合法的なライセンスや自社データを利用して法的リスクを回避している。
法的訴訟が進む中、著作権所有者の戦略は徐々に変化し、焦点はAIがどのようにデータを使用するかではなく、データの取得が合法かどうかに移っている。裁判所の判決は、AIのトレーニング行為が直接的な著作権侵害にはならないかもしれないが、盗版リソースの使用は厳しく取り締まるだろうことを示している。
現在、AI業界はかつてない著作権戦争に直面しており、法的境界線を駆け引きながらイノベーションを実現する方法は、テクノロジー大手にとって解決すべき緊急の課題となっている。