ハーバード大学は木曜日、ほぼ100万冊の公共ドメイン書籍を含む高品質なデータセットを公開すると発表しました。これは、誰でも大規模言語モデルやその他のAIツールをトレーニングするために利用できます。

このデータセットは、ハーバード大学が新たに設立した機関データイニシアチブ(Institutional Data Initiative)によって作成され、マイクロソフトとOpenAIの資金提供を受けています。収録されている書籍はすべて、Google ブックスプロジェクトによってスキャンされ、著作権の保護を受けなくなった作品です。

図書館 書房 読書 (2)

画像出典:AI生成画像、画像ライセンス提供元Midjourney

このデータセットの規模は、Meta LlamaなどのAIモデルのトレーニングに使用された悪名高いBooks3データセットの約5倍です。シェイクスピア、チャールズ・ディケンズ、ダンテの古典作品から、あまり知られていないチェコの数学教科書やウェールズ語のポケット辞書まで、様々な種類、年代、言語の書籍が含まれています。機関データイニシアチブのエグゼクティブディレクターであるグレッグ・ライパート氏は、このプロジェクトの目的は、AI業界の小さな参加者や個人研究者を含む一般の人々が、従来は老舗テクノロジー企業しかアクセスできなかった高度に精製され厳選されたコンテンツリポジトリにアクセスできるようにすることで、「公平な競争環境を創造すること」だと述べています。「厳格な審査を受けています」と彼は述べています。

ライパート氏は、新しい公共ドメインデータベースは、他のライセンス付きの資料と組み合わせて、AIモデルを構築するために使用できると考えています。「これは、Linuxが世界中の多くの分野における基本的なオペレーティングシステムになったようなものだと思います」と彼は述べ、企業は依然として、自社のモデルを競合他社のモデルと差別化するために追加のトレーニングデータを使用する必要があると指摘しています。

マイクロソフトの知的財産担当副社長兼副最高法務顧問であるバートン・デイビス氏は、同社がこのプロジェクトを支援することは、AIスタートアップ企業のために「アクセス可能なデータプール」を作成するという同社の価値観に沿ったものであり、これらのデータプールは「公益を目的としたもの」であると強調しました。言い換えれば、マイクロソフトは、自社のモデルで使用されているすべてのAIトレーニングデータを、ハーバード大学の新しいデータベースにある書籍などの公共ドメインの代替物に置き換える計画はないということです。「私たちは、公開されているデータを使用してモデルをトレーニングしています」とデイビス氏は述べています。

著作権で保護されたデータを使用してAIをトレーニングすることについての数十件の訴訟が裁判所で審理されているため、AIツールの将来の構築方法も不透明です。AI企業が勝訴した場合、彼らは著作権所有者とライセンス契約を結ぶことなく、インターネットからデータを取得し続けることができます。しかし、敗訴した場合、AI企業はモデルの作成方法を根本的に改革せざるを得なくなる可能性があります。ハーバード大学のデータベースのようなプロジェクトは前例のない速度で進められており、何が起きても、公共ドメインのデータセットに対する需要があると仮定しています。

機関データイニシアチブは、大量の書籍に加えて、ボストン公共図書館と協力して、さまざまな新聞から数百万件の公共ドメインの記事をスキャンしています。同機関は、将来的に同様の連携関係を構築する意思があると述べています。書籍データセットの正確な公開方法はまだ決定されていません。機関データイニシアチブはGoogleに共同で公開することを要請していますが、Googleはまだこのデータセットをホストすることに公に同意していません。ただし、ハーバード大学は楽観的であると述べています。(GoogleはWIREDのコメント要請に応答しませんでした。)

IDIのデータセットがどのように公開されようとも、著作権の問題に直面するリスクなしに、企業に大量の高品質なAIトレーニング資料を提供することを目的とした、同様のプロジェクト、スタートアップ企業、イニシアチブのシリーズに加わることになります。Calliope NetworksやProRataなどの企業はすでに登場しており、ライセンスを発行し、AIトレーニングデータを提供することでクリエイターや権利保有者に報酬を与えることを目的とした補償計画を設計しています。

さらに、他の新しい公共ドメインプロジェクトもあります。昨年春、フランスのAIスタートアップ企業Pleisは、独自の公共ドメインデータセットであるCommon Corpusを公開しました。プロジェクトコーディネーターのピエール=カル・ランレス氏によると、このデータセットには約300万~400万冊の書籍と雑誌のコレクションが含まれています。フランス文化省の支援を受けて、Common Corpusは今月だけでオープンソースAIプラットフォームHugging Faceで6万回以上ダウンロードされました。先週、Pleisは、このデータセットを使用してトレーニングされた最初の数の大規模言語モデルを公開すると発表しました。ランレス氏はWIREDに対し、これらのモデルは「これまでで初めて、完全にオープンデータを使用してトレーニングされ、[EU] AI法案に準拠したモデル」を構成すると述べています。

現在、同様の画像データセットの作成作業も進行中です。AIスタートアップ企業Spawningは、今年夏、Wikimedia Commonsや様々な博物館やアーカイブからの公共ドメイン画像を含むSource.Plusというデータセットを公開しました。長年にわたり、大都会美術館などの重要な文化機関も、独立したプロジェクトとして独自のアーカイブを公開してきました。

Stability AIの元幹部であるエド・ニュートン=レックス氏は現在、倫理的に調達されたAIツールの認証を行う非営利組織を運営しています。彼は、これらのデータセットの台頭は、著作権で保護された資料を盗むことなく、高性能で高品質なAIモデルを構築できることを示していると述べています。OpenAIは以前、英国の立法者に対し、著作権で保護された作品を使用しなければ、ChatGPTのような製品を作成することは「不可能」だと述べていました。「このような大規模な公共ドメインデータセットは、著作権で保護された作品をスクレイピングしてモデルをトレーニングするためのAI企業の言い訳である『必要性弁護』をさらに弱体化させています」とニュートン=レックス氏は述べています。

しかし、彼は、IDIや同様のプロジェクトが本当にトレーニングの現状を変えるかどうかについては、依然として懐疑的です。「これらのデータセットは、スクレイピングされた著作権で保護された作品に取って代わるために、他のライセンス付きデータと組み合わせて使用​​された場合にのみ、肯定的な影響を与えます。もしそれらが混合データセットに追加され、世界中のクリエイターの許可を得ずに一生かけて作り上げた作品を含むデータセットの一部になるだけなら、それは主にAI企業に利益をもたらすでしょう」と彼は述べています。