據《連線》雜誌報道,包括蘋果、英偉達、Anthropic和Salesforce在內的多家科技巨頭被發現未經許可使用數千個YouTube視頻來訓練他們的人工智能模型,引發了嚴重的版權和倫理爭議。
報道披露,這些公司將各種YouTube視頻的字幕整合入其AI訓練數據集中。受影響的創作者範圍廣泛,包括知名博主MKBHD、MrBeast、Jacksepticeye,脫口秀演員斯蒂芬・科爾伯特、約翰・奧利弗和吉米・坎摩爾,以及麻省理工學院、可汗學院、哈佛大學等教育頻道,還有華爾街日報、NPR等主流媒體。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
這些數據實際上是由一個名爲Eleuther AI的非營利組織下載並整理的。該組織將這些內容作爲他們發佈的「The Pile」大數據集的一部分,原本意在爲小型開發者和學者提供訓練材料。然而,這些數據集隨後被各大科技公司所利用。
值得注意的是,蘋果等公司並未直接從YouTube下載這些數據,而是使用了Eleuther AI整理的數據集。從技術層面來說,直接違反YouTube使用條款的是Eleuther AI,而非這些科技公司。
這一事件引發了關於AI訓練數據來源的合法性和倫理性的討論。它突顯了在快速發展的AI領域中,數據版權和使用許可的重要性,以及現有法律法規在面對這些新興技術挑戰時的不足。同時,這也爲創作者、平臺和AI公司之間的權益平衡帶來了新的思考。