最近、アップルを含む複数のテクノロジー大手企業が、YouTubeの動画字幕をAIモデルのトレーニングに使用していたことが調査で明らかになりました。これらのデータは17万本以上の動画を網羅しており、MKBHDやMrBeastなどの著名なクリエイターのコンテンツも含まれています。アップル社はこれらのデータを使用して、今年4月に公開されたオープンソースモデルであるOpenELMをトレーニングしました。

アップル、iOS 18、Apple Intelligence

これに対し、アップルは最近、OpenELMはApple Intelligenceを含む、同社のAIや機械学習機能には一切使用されていないと説明しました。アップルは、OpenELMの開発目的は研究界への貢献と、オープンソースの大規模言語モデルの発展促進であると強調しています。以前、アップルの研究者たちはOpenELMを「最先端のオープン言語モデル」と表現していました。

アップルは、OpenELMは研究目的のみに使用され、Apple Intelligenceの機能は一切サポートしていないと述べています。このモデルはオープンソースとして公開されており、アップルの機械学習研究ウェブサイトから入手できます。つまり、「YouTube字幕」データセットはApple Intelligenceをサポートするために使用されていません。アップルは以前、Apple Intelligenceモデルは「ライセンスされたデータ、特定の機能のために選択されたデータ、そしてウェブクローラーによって収集された公開データでトレーニングされている」と発表していました。

注目すべきは、アップルは現在、OpenELMの新バージョンの開発を予定していないことです。『Wired』誌によると、アップル以外にも、AnthropicやNVIDIAなどの企業もこの「YouTube字幕」データセットをAIモデルのトレーニングに使用していました。このデータセットは、非営利団体EleutherAIの大規模データセット「The Pile」の一部です。

この事件は、AIトレーニングデータのソースとそのプライバシーや著作権への影響に関する議論を引き起こしました。アップルがOpenELMの用途を明確にしたものの、テクノロジー企業が公開データを使用してAIモデルをトレーニングするやり方は、依然として注目に値します。