アップル社は最近、自社の「Apple Intelligence」シリーズの生成AI機能開発に使用されたモデルの詳細を説明する技術論文を発表しました。これらの機能は今後数ヶ月以内にiOS、macOS、iPadOSプラットフォームに導入される予定です。この論文の中で、アップル社はモデルのトレーニング過程における倫理的な問題に関する外部からの疑問に答え、いかなるプライベートなユーザーデータも使用せず、公開されているデータとライセンスを取得したデータのみを使用していると改めて強調しました。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
アップル社によると、事前トレーニングデータセットには、出版社からライセンス供与されたデータ、厳選された公開データセット、そしてアップル社のウェブクローラーであるApplebotが収集した公開情報が含まれています。アップル社は、ユーザーのプライバシー保護の重要性を考慮し、これらのデータには個人情報は一切含まれていないと強調しています。
7月には、アップル社が「The Pile」というデータセットを使用しており、そこには数十万件のYouTube動画の字幕が含まれており、多くの字幕作成者はその使用を承知しておらず、許可もしていないという報道がありました。これに対して、アップル社はその後、これらのモデルを製品のAI機能に利用する予定はないと発表しました。
この技術論文は、2024年のWWDCで発表された「アップル基礎モデル」(AFM)の謎を初めて解き明かし、これらのモデルのトレーニングデータは「責任ある」方法で取得されたことを強調しています。AFMモデルのトレーニングデータは、公開されているウェブデータと、非公開の出版社からライセンス供与されたデータから構成されています。報道によると、アップル社は2023年末にNBC、コンデナストなど複数の出版社と連絡を取り、ニュースアーカイブの使用に関する少なくとも5,000万ドルの長期契約を締結しました。さらに、AFMモデルは、Swift、Python、Cなど複数のプログラミング言語のコードを含む、GitHubでホストされているオープンソースコードも使用しています。
しかし、オープンソースコードをモデルのトレーニングに使用することは、開発者の間で論争を呼んでいます。一部のオープンソースコードライブラリにはライセンスがなく、またはAIトレーニングに使用することが許可されていませんが、アップル社は「ライセンスフィルター」を通して使用制限の少ないコードライブラリのみを選択していると述べています。
AFMモデルの数理能力を向上させるために、アップル社はトレーニングデータセットに、ウェブページ、数学フォーラム、ブログ、チュートリアル、セミナーからの数学の問題と解答を特に追加しました。さらに、モデルの不適切な動作の可能性を最小限に抑えるために、「高品質で公開されている」データセットを使用して微調整を行いました。
統合されたデータセットは約6.3兆個のトークンを含んでおり、これに対してMetaが主力テキスト生成モデルLlama3.1405Bのトレーニングに使用したデータ量は15兆個に達します。アップル社は、人間のフィードバックと合成データを使用してAFMモデルをさらに最適化し、ユーザーのニーズに合致するように努めています。
この論文は驚くべき発見を発表したわけではありませんが、それは意図的なものです。ほとんどの同様の論文は、法的問題を避けるために詳細な説明を避ける傾向があります。アップル社は論文の中で、ウェブ管理者がクローラーによるデータ収集を阻止することを許可していると述べていますが、これは個々のクリエイターにとってそれほど役立つものではなく、自身の作品をどのように保護するかは依然として解決すべき課題です。
要点:
🌟 アップル社は、モデルのトレーニングにはプライベートなユーザーデータを使用せず、公開データとライセンス供与されたデータを使用していると強調しています。
📊 トレーニングデータには、複数の出版社からライセンス供与されたコンテンツと、オープンソースコードライブラリが含まれています。
🔍 アップル社は、ユーザーのプライバシー保護を維持しながら、AIモデルの性能と責任感を向上させることに尽力しています。