人工知能(AI)業界がますます深刻な著作権問題に直面する中、特にAnthropicが著作権所有者と15億ドルの和解を成立させた後、多くの企業が訓練データの合法性に注目するようになった。現在、40件以上の未承認データ使用に関する訴訟が進行中であり、その中にMidjourneyがスーパーマンのキャラクターを作成したことで起訴された事件も含まれている。
有効な許諾システムがない場合、AI会社は大規模な著作権訴訟に直面する可能性があり、業界の将来は暗いものとなっている。この課題に対処するために、技術専門家とインターネット出版者たちが協力して、リアルシンプルライセンス(RSL)という新しいシステムを立ち上げた。このシステムは、インターネット上で広く適用可能な訓練データの許諾体系を構築することを目指している。このシステムはReddit、Quora、Yahooなどの大手インターネット出版者から支持を得ているが、業界全体が一致団結し、主要なAI研究室を引き込むことができるかどうかは未知数である。

RSLの共同創設者エカート・ワルター氏は、「我々の目標は、インターネット上で広く利用できる訓練データの許諾体系を構築することである。」と語った。「インターネットに対して機械が読み取れるライセンス契約が必要であり、RSLはその問題を解決するためのツールである。」
長年にわたり、データ提供者連合などの団体がより明確なデータ収集実践を推進してきたが、RSLは最初の実際的な技術的および法的インフラストラクチャを提供しようとする試みである。技術的には、RSLプロトコルは出版者がコンテンツに設定できる具体的なライセンス条件を定義しており、これはAI会社が特定のライセンスをカスタマイズするか、クリエイティブ・コモンズ(Creative Commons)の条項を採用するかどうかに関係する。参加するウェブページはこれらの条件を「robots.txt」ファイルに含め、どのデータがどの条件で保護されているかを簡単に識別できるようにする。
法的な側面では、RSLチームはRSL Collectiveという集団ライセンス組織を設立し、出版者向けに条件交渉と版権料の徴収を行っている。これは音楽業界のASCAや映画業界のMPLCに似た仕組みである。現在、Yahoo、Reddit、Mediumなど多くの著名な出版者がこの集団に参加している。
ただし、AIモデルが具体的にどの訓練データを使用したのかを算出することで版権料を計算する課題は依然として存在している。グーグルのAI検索サマリーのようなリアルタイムでネットワークデータを取得する製品の場合、データの使用状況の追跡は比較的簡単だが、トレーニングプロセスが記録されていない場合、特定のドキュメントがどの大規模言語モデル(LLM)で使用されたのかを確認するのは非常に困難である。
このような課題があるにもかかわらず、RSLの作成者たちはAI会社がこれらに対応できると考えている。「彼らは以前のいくつかのライセンス契約においてデータの使用状況を報告する能力が必要だったため、これは不可能なことではない。」と、RSLのもう一人の共同創設者ダグ・リード氏は述べた。「十分に良いものであれば、人々は適切な報酬を得ることができるだろう。」
最終的に、RSLが成功するかどうかの鍵は、AI会社がこの新体系を受け入れるかどうかにある。AI業界のリーダーたちがこのようなシステムの構築を呼びかけている中、RSLチームはそれらが約束を果たすことを期待している。
