近日,一項調查揭示了包括蘋果在內的多家科技巨頭曾利用YouTube視頻字幕來訓練AI模型。這些數據涵蓋了超過170,000個視頻,其中包括知名創作者如MKBHD和Mr. Beast的內容。蘋果公司利用這些數據訓練了其開源模型OpenELM,該模型於今年4月發佈。
對此,蘋果近期向外澄清,OpenELM並未應用於其任何AI或機器學習功能,包括Apple Intelligence。蘋果強調,開發OpenELM的目的是爲研究界做貢獻,並推動開源大語言模型的進步。此前,蘋果研究人員曾將OpenELM描述爲"最先進的開放語言模型"。
蘋果表示,OpenELM僅用於研究目的,不支持任何Apple Intelligence功能。該模型以開源形式發佈,可在蘋果的機器學習研究網站上獲取。這意味着"YouTube字幕"數據集並未用於支持Apple Intelligence。蘋果此前曾聲明,Apple Intelligence模型是"在授權數據上訓練的,包括爲特定功能選擇的數據和通過網絡爬蟲收集的公開數據"。
值得注意的是,蘋果目前沒有計劃開發OpenELM的新版本。《連線》雜誌報道稱,除蘋果外,Anthropic和NVIDIA等公司也使用了這個"YouTube字幕"數據集來訓練他們的AI模型。該數據集是非營利組織EleutherAI大型數據集"The Pile"的一部分。
這一事件引發了關於AI訓練數據來源及其對隱私和版權的影響的討論。儘管蘋果澄清了OpenELM的用途,但科技公司使用公開數據訓練AI模型的做法仍然值得關注。