最近、オレゴン州のライターであるエリザベス・ライオン(Elizabeth Lyon)がAdobeを相手に集団訴訟を提起し、SlimLMという小型言語モデルのトレーニングにおいて、彼女の違法な著作物を含む不正なデータセットを使用したと主張している。

SlimLMは、モバイルデバイス上でドキュメント補助タスク(要約、再構成、質問応答など)を最適化した、Adobeが提供する軽量言語モデルのシリーズである。Adobe公式によると、このモデルは2023年6月にAIチップ会社Cerebrasによって公開されたオープンソースで重複削除された多様なソースからなる「SlimPajama-627B」データセットに基づいて事前トレーニングされている。

しかし、ライオンの訴状では、SlimPajamaが実際にはRedPajamaデータセットの派生版であり、RedPajama自体が悪名高いBooks3データセットを直接コピーしたものであると指摘している。Books3には約19万冊の著作権保護された書籍が含まれており、長期間にわたりネット上の違法リソース(例:The Bibliotik)から大量に収集されたものとされてきた。訴状では、「SlimPajamaはRedPajamaの派生コピーであるため、Books3に含まれる内容、つまり原告および集団メンバーの著作権保護作品を含んでいる」と強調している。

ライオン自身はいくつかの非フィクション向け執筆ガイドの著者であり、その作品は明らかに不正にトレーニングデータとして使用されたとされる。彼女は、Adobeが許可なく、無署名で、費用も支払わず、自分の文章を商業的なAI製品開発に使用したことで、著作権法が与える著者の独占的権利を侵害したと主張している。

これは孤立した出来事ではない。Books3とRedPajamaはAI業界における著作権訴訟の「頻出キーワード」になっている:

- 2024年9月、AppleはBooks3を使ってApple Intelligenceを訓練したとして訴えられた;

- 同月、Anthropicは同様の指摘に対して作家団体と15億ドルの和解に至り、AI著作権事件の重要な節目と見なされている;

- 10月、SalesforceもRedPajamaを基にしたAIシステムを訓練したとして指摘された。