最近,一位來自馬薩諸塞州的 YouTube 創作者大衛・米萊特(David Millette)向 OpenAI 發起了集體訴訟,聲稱該公司在未獲得允許的情況下,使用了數百萬個 YouTube 視頻的轉錄內容來訓練他們的生成式人工智能模型。根據米萊特的律師在美國加州北區地方法院提交的訴狀,OpenAI 被指控暗中轉錄他的影片及其他創作者的內容,以此訓練其 ChatGPT 和其他生成式 AI 產品的模型。

youtube

訴狀中指出,OpenAI 通過收集這些數據,明顯從創作者的工作中獲利,而這違反了版權法和 YouTube 的服務條款,這些條款禁止將視頻用於獨立於其服務的應用。米萊特的律師在訴狀中寫道,OpenAI 的 AI 產品因使用了未經同意、未給予任何信用和補償的訓練數據而愈發顯得有價值。

米萊特代表的律師事務所尋求陪審團審判,並要求賠償超過500萬美元,作爲所有可能受到影響的 YouTube 用戶和創作者的損失賠償。

衆所周知,生成式 AI 模型並沒有真正的智能。它們通過處理大量的數據樣本(比如電影、錄音、論文等)來學習數據出現的可能性及其模式。很多模型的訓練數據來源於網絡上的公共網站和數據集。儘管企業聲稱他們的數據抓取符合 “合理使用” 的原則,但許多版權持有者對此表示不同意,並通過訴訟來停止這種做法。

視頻轉錄內容如今成爲了一種重要的訓練數據,尤其是隨着其他數據來源的枯竭。根據 Originality.AI 的數據,目前全球超過35% 的頂級網站已經封鎖了 OpenAI 的網絡爬蟲。此外,麻省理工學院的數據來源倡議的研究顯示,約25% 的高質量數據來源已被限制使用,導致 AI 模型的訓練數據變得更加緊張。

值得一提的是,OpenAI 的 Whisper 模型專門用於轉錄視頻音頻以收集更多訓練數據。根據《紐約時報》的報道,OpenAI 團隊在轉錄了超過一百萬小時的 YouTube 視頻後,利用這些轉錄文本來訓練他們的 GPT-4模型。這引發了內部討論,認爲這可能違反了 YouTube 的規定。

最近,一位來自馬薩諸塞州的 YouTube 創作者大衛・米萊特(David Millette)向 OpenAI 發起了集體訴訟,聲稱該公司在未獲得允許的情況下,使用了數百萬個 YouTube 視頻的轉錄內容來訓練他們的生成式人工智能模型。根據米萊特的律師在美國加州北區地方法院提交的訴狀,OpenAI 被指控暗中轉錄他的影片及其他創作者的內容,以此訓練其 ChatGPT 和其他生成式 AI 產品的模型。

訴狀中指出,OpenAI 通過收集這些數據,明顯從創作者的工作中獲利,而這違反了版權法和 YouTube 的服務條款,這些條款禁止將視頻用於獨立於其服務的應用。米萊特的律師在訴狀中寫道,OpenAI 的 AI 產品因使用了未經同意、未給予任何信用和補償的訓練數據而愈發顯得有價值。

米萊特代表的律師事務所尋求陪審團審判,並要求賠償超過500萬美元,作爲所有可能受到影響的 YouTube 用戶和創作者的損失賠償。

衆所周知,生成式 AI 模型並沒有真正的智能。它們通過處理大量的數據樣本(比如電影、錄音、論文等)來學習數據出現的可能性及其模式。很多模型的訓練數據來源於網絡上的公共網站和數據集。儘管企業聲稱他們的數據抓取符合 “合理使用” 的原則,但許多版權持有者對此表示不同意,並通過訴訟來停止這種做法。

視頻轉錄內容如今成爲了一種重要的訓練數據,尤其是隨着其他數據來源的枯竭。根據 Originality.AI 的數據,目前全球超過35% 的頂級網站已經封鎖了 OpenAI 的網絡爬蟲。此外,麻省理工學院的數據來源倡議的研究顯示,約25% 的高質量數據來源已被限制使用,導致 AI 模型的訓練數據變得更加緊張。

值得一提的是,OpenAI 的 Whisper 模型專門用於轉錄視頻音頻以收集更多訓練數據。根據《紐約時報》的報道,OpenAI 團隊在轉錄了超過一百萬小時的 YouTube 視頻後,利用這些轉錄文本來訓練他們的 GPT-4模型。這引發了內部討論,認爲這可能違反了 YouTube 的規定。

劃重點:

🔍  YouTuber 大衛・米萊特對 OpenAI 提起集體訴訟,指控其未經許可使用視頻轉錄內容進行 AI 訓練。

💰  米萊特尋求超過500萬美元的賠償,代表所有受影響的 YouTube 創作者。

🚫  生成式 AI 模型的數據來源面臨日益嚴格的限制,許多頂級網站已封鎖 OpenAI 的爬蟲。