あなたは、自分の研究論文がAIの学習に使われているかもしれないと考えたことがありますか? 実は多くの学術出版社が、AIモデル開発企業に研究成果を「販売」しており、特に著者本人が知らないまま行われている場合、研究界に大きな波紋を広げています。専門家によると、もしあなたの論文が既に大規模言語モデル(LLM)で使用されていなくても、近い将来「利用」される可能性が高いとのことです。

最近、英国の学術出版社テイラーアンドフランシス(Taylor & Francis)はマイクロソフトと1000万ドルの取引を行い、マイクロソフトがAIシステムの能力向上に研究データを使用することを許可しました。また、6月にはアメリカの出版社Wileyも、生成AIモデルの学習に使用された見返りに2300万ドルを得る取引を行いました。

論文がインターネット上で公開されている場合、オープンアクセスであろうと有料記事であろうと、既に何らかの大規模言語モデルに学習データとして利用されている可能性が高いです。ワシントン大学のAI研究者Lucy Lu Wang氏は、「論文がモデルの学習に使用されてしまえば、学習後には削除することができません」と述べています。

image.png

大規模言語モデルは学習に大量のデータが必要であり、これらのデータは通常インターネットから収集されます。何億もの言語断片を分析することで、これらのモデルは流暢なテキストを学習し生成することができます。学術論文は情報密度が高く、長文であるため、LLM開発者にとって非常に貴重な「宝」となっています。このようなデータは、AIが科学分野でより良い推論を行うのに役立ちます。

近年、高品質なデータセットの購入傾向が高まっており、多くの有名メディアやプラットフォームもAI開発者と協力してコンテンツを販売し始めています。合意がなければ多くの作品が無断で収集される可能性があることを考慮すると、このような協力関係は今後ますます一般的になるでしょう。

しかし、大規模人工知能ネットワーク(Large-scale Artificial Intelligence Network)のような一部のAI開発者は、データセットを公開することを選択していますが、生成AIを開発する多くの企業は学習データについて秘密主義を貫いています。「彼らの学習データについては何も分かりません。」 専門家によると、arXivのようなオープンソースプラットフォームやPubMedなどのデータベースは、AI企業がデータを取得する主なターゲットであることは間違いありません。

特定のLLMの学習データに特定の論文が含まれているかどうかを証明するのは容易ではありません。研究者は、論文の中で珍しい文章を使用して、モデルの出力が原文と一致するかどうかをテストできますが、開発者がモデルを調整して学習データの直接出力を回避している可能性があるため、これだけでは論文が使用されていないことを完全に証明することはできません。

image.png

たとえ特定のLLMが特定のテキストを使用していたことが証明されたとしても、その後どうなるのでしょうか? 出版社は、著作権で保護されたテキストを無許可で使用することは著作権侵害であると主張していますが、LLMはテキストを複製しているのではなく、情報内容を分析して新しいテキストを生成していると反論する意見もあります。

現在、米国では著作権に関する訴訟が進行中で、これは画期的な判例になる可能性があります。『ニューヨーク・タイムズ』は、マイクロソフトとChatGPTの開発者であるOpenAIを相手取り、許可なくニュースコンテンツをモデルの学習に使用したとして訴訟を起こしています。

多くの学者は、特にこれらのモデルが研究の正確性を向上させる場合、彼らの作品がLLMの学習データに含まれることを歓迎しています。しかし、すべての研究者がそれを平静に受け止められるわけではなく、自分の仕事が脅かされていると感じている人も多くいます。

総じて、現時点では個々の研究者が出版社による販売決定に対して発言権を持つことはほとんどなく、既に公開されている論文については、功績の分配や使用の有無に関する明確な仕組みが欠けています。ある研究者は、「AIモデルの助けを借りたいが、公平な仕組みも必要だ。今のところ、そのような解決策は見つかっていない」と不満を述べています。

参考文献:

https://www.nature.com/articles/d41586-024-02599-9

https://arxiv.org/pdf/2112.03570