蘋果公司最近發佈了一篇技術論文,詳細介紹了爲 “Apple Intelligence” 系列生成式人工智能功能開發的模型。這些功能將在未來幾個月內推向 iOS、macOS 和 iPadOS 平臺。在這篇論文中,蘋果迴應了外界對其訓練模型過程中是否存在倫理問題的質疑,重申自己並沒有使用任何私有用戶數據,而是利用了公開可用的數據和已獲許可的數據來進行訓練。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
蘋果表示,預訓練數據集包括來自出版商的許可數據、經過精心挑選的公開數據集以及由其網絡爬蟲 Applebot 抓取的公開信息。蘋果強調,考慮到保護用戶隱私的重要性,這些數據中不包含任何私人用戶信息。
在7月份,有媒體報道稱,蘋果使用了一個名爲 “The Pile” 的數據集,其中包含了數十萬條 YouTube 視頻的字幕,而很多字幕創作者並不知情也未授權使用。對此,蘋果後來表示,他們並不打算利用這些模型爲產品提供任何 AI 功能。
這篇技術論文首次揭開了蘋果在2024年 WWDC 大會上公佈的 “蘋果基礎模型”(AFM)的神祕面紗,強調了這些模型的訓練數據是 “負責任地” 獲取的。AFM 模型的訓練數據來自於公開的網絡數據以及一些未公開的出版商的許可數據。報道稱,蘋果在2023年底聯繫了 NBC、康泰納仕等多家出版商,達成了至少5000萬美元的長期協議,以使用其新聞檔案進行模型訓練。此外,AFM 模型還使用了在 GitHub 上託管的開源代碼,包括 Swift、Python、C 等多種編程語言的代碼。
然而,使用開源代碼進行模型訓練在開發者中引發了爭議。有些開源代碼庫並沒有許可,或者不允許用於 AI 訓練,但蘋果表示,他們會經過 “許可過濾”,只選擇那些使用限制較少的代碼庫。
爲了提升 AFM 模型的數學能力,蘋果在訓練數據集中特別加入了來自網頁、數學論壇、博客、教程和研討會的數學問題和答案。此外,他們還利用 “高質量、公開可用” 的數據集進行微調,以儘量減少模型產生不當行爲的可能性。
整合的數據集大約包含6.3萬億個標記,而相比之下,Meta 用於訓練其旗艦文本生成模型 Llama3.1405B 的數據量達到15萬億。蘋果還通過人類反饋和合成數據進一步優化 AFM 模型,力求使其更符合用戶需求。
這篇論文雖然沒有提出什麼驚人的發現,但這也是經過精心設計的結果。因爲大多數此類論文並不會過於詳細,以避免法律問題。蘋果在文中提到,他們允許網頁管理員阻止爬蟲抓取數據,但這對個別創作者來說並不是很有幫助,如何保護自己的作品仍然是一個亟待解決的問題。
劃重點:
🌟 蘋果強調,訓練模型時並未使用私有用戶數據,而是依賴公開和許可的數據。
📊 訓練數據包括來自多家出版商的授權內容,以及開源代碼庫。
🔍 蘋果努力在保護用戶隱私的同時,致力於提升 AI 模型的性能與責任感。
