Stable Diffusionのトレーニングに使用されたデータセットの背後にある組織が、CSAMを削除したと主張

AIbase基地

AIニュースで公開 · 1 分読む · Jul 17, 2025

ドイツの研究機関LAIONは、Stable Diffusionやその他の生成AIモデルのトレーニングに使用されるデータセットを作成しました。同機関は、新たに「既知の疑わしい児童性的虐待素材（CSAM）のリンクを完全に削除した」と主張する新しいデータセットを発表しました。

新しいデータセット「Re-LAION-5B」は、実際には古いデータセット「LAION-5B」の再リリースですが、非営利団体インターネット監視基金会、ヒューマン・ライツ・ウォッチ、カナダ児童保護センター、そして既に解散したスタンフォードインターネット観測所の勧告に基づいて「修正」が実施されました。「Re-LAION-5B Research」と「Re-LAION-5B Research-Safe」（さらにNSFWコンテンツも削除）の2つのバージョンがダウンロード可能です。LAIONは、これら両方のバージョンで、数千もの既知（および「可能性のある」）CSAMリンクがフィルターされたと述べています。

LAIONはブログ記事で、「LAIONは当初から、データセットから違法なコンテンツを削除することに尽力しており、その目的を達成するために適切な措置を最初から講じてきました。」と書いています。「LAIONは、違法コンテンツが発見され次第、速やかに削除するという原則を厳守しています。」

注意すべき点として、LAIONのデータセットには画像が含まれておらず、過去にも含まれたことはありません。代わりに、LAIONは別のデータセットであるCommon Crawl（ウェブ上のサイトやウェブページをクロールしたデータ）から収集した画像へのリンクと代替テキストのインデックスを作成しています。

人工知能ロボットアーム AI (6)

画像出典：AI生成画像、画像ライセンス提供元Midjourney

Re-LAION-5Bのリリースは、2023年12月にスタンフォードインターネット観測所が行った調査の後に行われました。この調査では、LAION-5B（特にLAION-5B400Mというサブセット）に、ソーシャルメディアの投稿や人気のあるアダルトサイトから収集された少なくとも1,679個の違法な画像リンクが含まれていることが判明しました。報告によると、400Mには、ポルノ画像、人種差別的な中傷、有害な社会的ステレオタイプなど、「様々な不適切なコンテンツ」へのリンクも含まれていました。

この報告書のスタンフォード大学の共著者らは、違法コンテンツの削除は困難であり、CSAMの存在が必ずしもデータセットでトレーニングされたモデルの出力に影響を与えるとは限らないと指摘しましたが、LAIONはLAION-5Bを一時的にオフラインにすることを発表しました。

スタンフォードの報告書は、LAION-5Bでトレーニングされたモデルは「廃棄され、可能な限り配布を停止すべき」と推奨しています。おそらくこれと関連して、AIスタートアップ企業Runwayは最近、AIホスティングプラットフォームHugging FaceからStable Diffusion 1.5モデルを削除しました。詳細については、同社に連絡を取りました。（Runwayは2023年に、Stable Diffusionの開発元であるStability AIと協力して、元のStable Diffusionモデルのトレーニングを支援しました。）

新しいRe-LAION-5Bデータセットは約55億個のテキスト画像ペアを含み、Apache2.0ライセンスで公開されています。LAIONは、サードパーティがメタデータを使用して、一致する違法コンテンツを削除することで、LAION-5Bの既存のコピーをクリーンアップできると述べています。

LAIONは、そのデータセットが研究目的であり、商業目的ではないことを強調しています。しかし、歴史が示すように、これを阻止できない組織もあります。Stability AIに加えて、GoogleもLAIONデータセットを使用して画像生成モデルのトレーニングに利用していました。

LAIONは投稿で続けて、「パートナーから提供されたリンクと画像ハッシュリストとの照合後、合計2,236個の[疑わしいCSAMへの]リンクを削除しました。」と述べています。「これらのリンクには、2023年12月のスタンフォードインターネット観測所の報告書で発見された1,008個のリンクも含まれていました…旧LAION-5Bをまだ使用しているすべての研究機関や組織に、Re-LAION-5Bデータセットへの移行を早急に強く推奨します。」

Runway、Gen-3 Alpha Extensions機能を発表　動画の長さが最大40秒に

Runway社がGen-3 Alpha Extensions機能を発表し、AI動画生成の長さを最大40秒に延長、全ユーザー向けに公開しました。これはデジタルコンテンツ制作に革命的な影響を与えます。ユーザーは画像やテキストを入力するだけで、完全なストーリーや広告コンテンツを含む動画を生成できます。この技術は広告制作、ショート動画制作などの分野に大きな意味を持ち、制作効率を大幅に向上させます。さらに、Runwayは最近Gen-3 Alpha Turbo版も発表しました。

AIが国家試験に挑戦：GPT-4が日本の理学療法士国家試験で優秀な成績

OpenAIの言語モデルであるGPT-4は、追加のトレーニングなしで日本の理学療法士国家試験を受験し、73.4％という高い正解率を達成しました。純粋なテキストの問題では80.5％の高い正解率を示しましたが、現実の問題や画像・表を含む問題への対応は弱く、それぞれ46.6％、35.4％にとどまりました。この研究は、複雑な状況や視覚情報の理解においてAIが持つ限界を示唆しています。GPT-4は英語データでトレーニングされていますが、日本語入力に対しても効果的に機能することが分かりました。

MiniMax、6秒動画生成AIモデルをひっそりと公開：期間限定で無料

MiniMaxは最近、初の動画生成AIモデルを密かに公開し、同モデルによって生成された2分間の動画『魔法硬幣』も同時に公開しました。創設者の閻俊杰氏は、このモデルはRunwayを上回る動画生成効果があると述べていますが、具体的なパラメータや技術的な詳細はまだ公開されていません。MiniMaxは、今後のバージョンでデータ、アルゴリズム、使い勝手を継続的に改善し、将来は画像から動画への生成やテキストと画像を組み合わせた動画生成機能を追加する予定です。商業化については、新しいバージョンが満足のいく状態になったら検討するとしています。Mini...

ロジクールアンバーシリーズK98M発表百度文心一言AIプラットフォーム統合

ロジクールは北京で「AI駆動持続可能な発展を共創」新製品発表会を開催し、中国ユーザー向けにカスタマイズされた初のAIカスタマイズワイヤレスメカニカルキーボード、ロジクールアンバーシリーズK98Mを発表しました。このキーボードは百度の文心一言AIプラットフォームを統合しており、ユーザーはLogi Options+ソフトウェアを通じてワンクリックでAIサービスにアクセスし、文案作成、画像生成、学術論文支援、データ処理などのAI機能を利用できます。

アマゾン、Covariantチームの迎え入れでロボットAIイノベーションを推進

アマゾンは、ロボットスタートアップ企業Covariantの中核チーム（従業員の約4分の1）を採用し、Covariantのロボット基礎モデルの使用に関する非独占ライセンス契約を締結したと発表しました。この動きは、アマゾンのAIとロボット分野における戦略的取り組みであり、AIとロボット技術の基礎研究を推進し、それをアマゾンの既存のロボットシステムに適用することで、顧客へのより大きな実質的な価値を提供することを目的としています。 "逆買収"戦略により、アマゾンは新たな技術を獲得し、スタートアップ企業を直接買収することによるリスクを回避しました。

Samsung AIレシピアプリが大幅アップデート：写真撮影で食事プランを自動生成

SamsungのAIレシピアプリ「Samsung Food Plus」がアップデート。写真撮影だけで食材をリストに追加し、おすすめのレシピを生成。食材リストの管理を自動化し、リストの更新と食事プランの作成を簡素化します。本アプリはクロスプラットフォームアプリとなり、Samsung SmartThingsやFamily Hubに限定されず、Vision AI技術を搭載し4万種類以上の食材を認識。有料版のSamsung Food Plusでは広告非表示やパーソナライズ機能も利用可能です。