ドイツの研究機関LAIONは、Stable Diffusionやその他の生成AIモデルのトレーニングに使用されるデータセットを作成しました。同機関は、新たに「既知の疑わしい児童性的虐待素材(CSAM)のリンクを完全に削除した」と主張する新しいデータセットを発表しました。
新しいデータセット「Re-LAION-5B」は、実際には古いデータセット「LAION-5B」の再リリースですが、非営利団体インターネット監視基金会、ヒューマン・ライツ・ウォッチ、カナダ児童保護センター、そして既に解散したスタンフォードインターネット観測所の勧告に基づいて「修正」が実施されました。「Re-LAION-5B Research」と「Re-LAION-5B Research-Safe」(さらにNSFWコンテンツも削除)の2つのバージョンがダウンロード可能です。LAIONは、これら両方のバージョンで、数千もの既知(および「可能性のある」)CSAMリンクがフィルターされたと述べています。
LAIONはブログ記事で、「LAIONは当初から、データセットから違法なコンテンツを削除することに尽力しており、その目的を達成するために適切な措置を最初から講じてきました。」と書いています。「LAIONは、違法コンテンツが発見され次第、速やかに削除するという原則を厳守しています。」
注意すべき点として、LAIONのデータセットには画像が含まれておらず、過去にも含まれたことはありません。代わりに、LAIONは別のデータセットであるCommon Crawl(ウェブ上のサイトやウェブページをクロールしたデータ)から収集した画像へのリンクと代替テキストのインデックスを作成しています。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
Re-LAION-5Bのリリースは、2023年12月にスタンフォードインターネット観測所が行った調査の後に行われました。この調査では、LAION-5B(特にLAION-5B400Mというサブセット)に、ソーシャルメディアの投稿や人気のあるアダルトサイトから収集された少なくとも1,679個の違法な画像リンクが含まれていることが判明しました。報告によると、400Mには、ポルノ画像、人種差別的な中傷、有害な社会的ステレオタイプなど、「様々な不適切なコンテンツ」へのリンクも含まれていました。
この報告書のスタンフォード大学の共著者らは、違法コンテンツの削除は困難であり、CSAMの存在が必ずしもデータセットでトレーニングされたモデルの出力に影響を与えるとは限らないと指摘しましたが、LAIONはLAION-5Bを一時的にオフラインにすることを発表しました。
スタンフォードの報告書は、LAION-5Bでトレーニングされたモデルは「廃棄され、可能な限り配布を停止すべき」と推奨しています。おそらくこれと関連して、AIスタートアップ企業Runwayは最近、AIホスティングプラットフォームHugging FaceからStable Diffusion 1.5モデルを削除しました。詳細については、同社に連絡を取りました。(Runwayは2023年に、Stable Diffusionの開発元であるStability AIと協力して、元のStable Diffusionモデルのトレーニングを支援しました。)
新しいRe-LAION-5Bデータセットは約55億個のテキスト画像ペアを含み、Apache2.0ライセンスで公開されています。LAIONは、サードパーティがメタデータを使用して、一致する違法コンテンツを削除することで、LAION-5Bの既存のコピーをクリーンアップできると述べています。
LAIONは、そのデータセットが研究目的であり、商業目的ではないことを強調しています。しかし、歴史が示すように、これを阻止できない組織もあります。Stability AIに加えて、GoogleもLAIONデータセットを使用して画像生成モデルのトレーニングに利用していました。
LAIONは投稿で続けて、「パートナーから提供されたリンクと画像ハッシュリストとの照合後、合計2,236個の[疑わしいCSAMへの]リンクを削除しました。」と述べています。「これらのリンクには、2023年12月のスタンフォードインターネット観測所の報告書で発見された1,008個のリンクも含まれていました…旧LAION-5Bをまだ使用しているすべての研究機関や組織に、Re-LAION-5Bデータセットへの移行を早急に強く推奨します。」