スタンフォード大学、コーネル大学、そしてウェストバージニア大学の研究者たちが発表した論文によると、MetaのLlama3.1 AIモデルは、多くの著作権保護された書籍の内容を一字一句再現できることが示されました。これにより、このテック企業には巨額の法的リスクが生じる可能性があります。研究では、Llama3.170Bモデルが『ハリー・ポッターと秘密の部屋』の42%のテキストを再現できたことが判明し、第1世代のLlamaモデルの4.4%を大きく上回っています。

OpenAIのChatGPTやMetaのLlamaなど、一般的なAIモデルは、パターン認識や生成を目的に大量のデータでトレーニングされます。しかし、この研究の重要な発見は、MetaのLlamaモデルが単に言語パターンを学習するだけでなく、特定の書籍(『ハリー・ポッター』や『1984』など)を「ほぼ完全に記憶」している可能性があることです。スタンフォード技術法専門家のマーク・レムリー氏は、「AIがトレーニングデータの完全な抜粋を生成することができる場合、それは学習に基づく「変革的作品」としてではなく、いわば「著作権作品の巨大なZIPファイル」とみなされる可能性がある」と述べています。

著作権

著作権争議の新たな焦点:一字再現 vs. モデル学習

オープンAI、ディープシーク、マイクロソフトなどのAIモデルをテストした際、レムリー氏の研究チームは、メタのLlamaが唯一正確に本の内容を再現できるモデルであることを発見しました。『ハリー・ポッター』シリーズの最初の作品に加え、F・スコット・フィッツジェラルドの『グレート・ギャツビー』やジョージ・オーウェルの『1984』にも著しい記憶能力を示しています。

Metaが著作権保護された資料を使用してAIをトレーニングすることは大きな論争を引き起こしています。同社は現在、著名な作家(例えば喜劇俳優のサラ・シルヴァーマン)から提訴されており、著作権侵害の疑いで「Books3」データセットを使用しているとして批判されています。このデータセットには約20万の著作権保護された出版物が含まれています。法廷文書によると、あるMetaエンジニアは「会社のノートパソコンでTorrentをダウンロードするのは違和感があった」と述べています。

レムリー弁護士は、もし「Books3」データセットの「わずか3%」の内容が侵害と判断されれば、Metaは法定賠償で約1億ドルの負担を強いられると推測しています。これは利益配分を含まない金額です。侵害割合が高くなるほど、Metaの法的責任はさらに深刻になります。

法的専門家の立場変更、Metaはコメント拒否

興味深いことに、レムリー氏は以前、Metaが以前の生成型AI著作権訴訟(Kadrey v Meta Platforms)で弁護側を務めていました。しかし、彼が主導したこのAIモデルの記憶と著作権コンテンツ再現に関する研究の結果を受けて、今年始めに彼はMetaを代理しないことを決めました。同社およびそのCEOであるマーク・ザッカーバーグの行動に対する抗議の一環です。彼は以前、Metaが勝訴すべきだと考えていましたが、新しい研究成果が彼の意見を変えたようです。

Metaはレムリー氏の最新研究結果についてコメントを控えています。