在人工智能的飛速發展背後,一些科技巨頭卻悄悄採取了頗具爭議的手段。他們不僅“吸乾”了書籍、網站、照片和社交媒體帖子,甚至在創作者不知情的情況下,大量使用了YouTube視頻來訓練他們的AI模型。

誰動了我的視頻?

根據Proof News的調查,包括Anthropic、英偉達、蘋果和Salesforce在內的硅谷巨頭,使用了來自173,536個YouTube視頻的字幕數據來訓練AI。這些視頻來自超過48,000個頻道,儘管YouTube明確禁止未經許可從其平臺抓取材料。

youtube

這些數據集被稱爲“YouTube Subtitles”,包含了來自教育和在線學習頻道如Khan Academy、MIT和哈佛的視頻字幕。華爾街日報、NPR和BBC的視頻也被用來訓練AI,甚至包括《Stephen Colbert晚間秀》、《John Oliver上週今夜秀》和《Jimmy Kimmel Live》。

Proof News還發現,包括MrBeast(擁有2.89億訂閱者,2個視頻被用於訓練)、Marques Brownlee(1900萬訂閱者,7個視頻被用於訓練)、Jacksepticeye(近3100萬訂閱者,377個視頻被用於訓練)和PewDiePie(1.11億訂閱者,337個視頻被用於訓練)在內的YouTube超級明星的視頻也被用於訓練AI。一些用於訓練AI的材料甚至宣揚了“地球是平的”等陰謀論。

創作者的憤怒

“沒有人來跟我說,‘我們想用這個’”,《David Pakman Show》的主持人David Pakman說。他的頻道擁有超過200萬訂閱者和超過20億次觀看,但近160個視頻被納入了YouTube Subtitles訓練數據集。

Pakman的團隊全職工作,每天發佈多個視頻,還製作播客、TikTok視頻和其他平臺的內容。如果AI公司爲此付費,Pakman表示他應該因爲使用他數據而得到補償。他指出,一些媒體公司最近已經簽訂了協議,以獲得使用他們作品訓練AI的報酬。

Nebula的CEO Dave Wiskus更是直言不諱地稱:“這是盜竊”。Nebula是一家部分由創作者擁有的流媒體服務,一些創作者的作品被從YouTube上取走,用於訓練AI。

數據集的“金礦”

AI公司通過獲取更高質量的數據來相互競爭,這是他們保密數據來源的原因之一。《紐約時報》今年早些時候報道稱,谷歌(擁有YouTube)也使用了平臺上的視頻文本來訓練其模型。作爲迴應,一位發言人表示,其使用是經過YouTube創作者同意的。

Proof News的調查還發現,OpenAI未經授權使用了YouTube視頻。公司代表既未確認也未否認這一發現。

法律和倫理的挑戰

YouTube Subtitles和其他類型的語音轉文本數據是潛在的“金礦”,因爲它們可以幫助訓練模型複製人們的談話和對話方式。然而,這也引發了關於版權和倫理的爭議。許多創作者擔心,他們的工作被用於訓練AI,最終可能會取代他們的工作。

Proof News試圖聯繫這篇文章中提到的頻道的所有者。許多人沒有迴應評論請求。我們採訪的創作者中,沒有人意識到他們的信息被取走,更不用說是如何被使用了。

未來的不確定性

許多創作者對未來的道路感到不確定。全職YouTuber定期巡邏,尋找未經授權使用他們作品的情況,並定期提交刪除通知。一些人擔心,AI遲早能夠生成與他們製作的內容相似的內容,甚至直接複製。

《David Pakman Show》的創作者Pakman最近在TikTok上看到了AI的力量。他發現了一個被標記爲Tucker Carlson剪輯的視頻,但當他觀看時,他被震驚了。它聽起來像Carlson,但字字句句都是Pakman在他的YouTube節目中所說的,甚至語調都一模一樣。他同樣震驚的是,視頻中只有一個評論者似乎意識到這是假的——一個模仿Carlson的聲音克隆Pakman的劇本。

“這將是一個問題,”Pakman在他製作的關於假視頻的YouTube視頻中說。“你幾乎可以用任何人來做這個。”

EleutherAI的聯合創始人Sid Black在GitHub上寫道,他通過使用腳本創建了YouTube Subtitles。該腳本以與觀看視頻時YouTube觀衆的瀏覽器下載它們的方式下載YouTube的字幕。根據GitHub上的文檔,Black使用了495個搜索詞來收集視頻,包括“有趣的視頻博主”、“愛因斯坦”、“黑色新教徒”、“保護性社會服務”、“信息戰”、“量子色動力學”、“Ben Shapiro”、“維吾爾人”、“水果主義者”、“蛋糕食譜”、“納斯卡線條”和“地球是平的”。

儘管YouTube的服務條款禁止通過“自動化手段”訪問其視頻,但超過2000名GitHub用戶已經收藏或認可了該代碼。

“如果YouTube想阻止這個模塊工作,有很多方法可以做到這一點,”機器學習工程師Jonas Depoix在GitHub上的討論中寫道,他在那裏發佈了Black用來訪問YouTube字幕的代碼。“到目前爲止,這還沒有發生。”

在一封電子郵件中,Depoix對Proof News表示,他自從幾年前作爲大學生爲一個項目編寫代碼以來就沒有使用過該代碼,並對人們發現它有用感到驚訝。他拒絕回答有關YouTube規則的問題。

Google發言人Jack Malon在一封電子郵件中迴應了評論請求,稱該公司多年來採取了“行動以防止濫用、未經授權的抓取”。他沒有迴應有關其他公司使用這些材料作爲訓練數據的問題。

AI公司使用的視頻中包括來自《Einstein Parrot》的146個視頻,該頻道擁有近15萬訂閱者。非洲灰鸚鵡的看護人Marcia(她不願透露姓氏,擔心危及這隻著名鸚鵡的安全)最初認爲,AI模型吸收了模仿鸚鵡的話語是有趣的。

“誰會想用鸚鵡的聲音?”Marcia說。“但後來,我知道他說話非常好。他用我的聲音說話。所以他在模仿我,然後AI在模仿鸚鵡。”

一旦數據被AI吸收,就無法“遺忘”。Marcia對鸚鵡的信息可能被以未知的方式使用感到困擾,包括創建數字副本鸚鵡,並擔心讓它說髒話。

“我們正在進入未知領域,”Marcia說。

參考鏈接:

https://www.wired.com/story/youtube-training-data-apple-nvidia-anthropic/

https://arstechnica.com/ai/2024/07/apple-was-among-the-companies-that-trained-its-ai-on-youtube-videos/