世界最大手のチップ企業であるナビダス(NVIDIA)は、AIモデルのトレーニングデータの出所に関する法律的なトラブルに巻き込まれています。米国カリフォルニア州裁判所に提出された最新の修正訴状には驚くべき詳細が記載されています。ナビダスは、競争優位を維持するために、世界的に有名な不正コピー電子書籍サイトAnna’s Archiveと直接接触し、数百万冊の著作権保護済み書籍を取得しようと試みたと指摘されています。

原告はAbdi Nazemian氏など複数の作家によって構成されており、彼らはナビダスが2023年の開発者カンファレンスでの納品圧力に対応するため、内部戦略チームのメンバーが直接Anna’s Archiveにどのリソースが利用可能か尋ね、それらを大規模言語モデル(LLM)の初期トレーニングデータとして使用したいと考えていたと主張しています。訴えによると、相手側がその図書館が違法に取得したものであることを明確に警告したにもかかわらず、ナビダスの管理層は1週間以内に「許可」を出し、約500TBの大量データへのアクセス権を得ました。

また、Anna’s Archive以外にも、訴状ではナビダスが他の「影の図書館」として知られるLibGen、Sci-HubおよびZ-Libraryなどのデータソースを使用した可能性も示されています。さらに、同社は企業向け顧客にツールを配布し、盗版作品を含むデータセットを自動的に取得するのを支援したため、「代替侵害」と「共同侵害」行為の疑いをかけられています。ナビダスは以前から「適切な使用」を理由として弁護していましたが、これらの内部メールなどの重要な証拠が公開されるにつれて、事件は著作権所有者にとって有利な方向へと進んでいます。

ポイント解説:

  • ⚖️ 集団訴訟に巻き込まれた:著名な作家たちが、ナビダスがNeMoやMegatronなどの主要モデルに大量の著作権違反本を使ってトレーニングしたと主張しています。

  • 📑 盗版元に積極的に接触:内部メールにより、ナビダスがAnna’s Archiveに直接連絡を取り、500TBのデータを高速ダウンロードできるように支払いを行う方法を尋ねていたことが明らかになりました。

  • 🛡️ 侵害の指摘が拡大:原告は、ナビダスが内部トレーニングで不正行為を行っただけでなく、顧客に対して自動化スクリプトを提供し、盗版データの二次的な拡散を間接的に助長したと控訴しています。