科技巨頭谷歌在近日的一場聯邦反壟斷審判中承認,即使網站出版商明確選擇不讓其內容用於人工智能模型訓練,谷歌仍會利用其搜索引擎收集的數據進行 AI 訓練,包括備受爭議的 AI Overviews 功能。

這一承認由谷歌旗下人工智能實驗室 DeepMind 的副總裁伊萊·柯林斯在作證時做出。司法部律師戴安娜·阿吉拉爾在質詢中指出,即使出版商選擇不讓 DeepMind 使用其數據進行大型語言模型訓練,這些相同的數據仍然會被谷歌搜索部門用於其自身的人工智能項目。

谷歌 (3)

阿吉拉爾援引一份2024年的內部文件顯示,谷歌已收集了高達1600億個文本單元用於人工智能訓練。儘管其中一半(800億個)據稱因出版商的選擇退出而被刪除,但柯林斯的證詞表明,這800億個文本單元仍在谷歌內部用於人工智能訓練,只是不再用於 DeepMind。

更令人擔憂的是,谷歌爲網站提供的唯一阻止其人工智能抓取內容的方法,竟然是徹底從谷歌搜索引擎的索引中移除。對於任何依賴網絡流量的網站而言,這幾乎等同於“死刑”,根本不構成真正的選擇。

谷歌方面暗示,這種做法僅僅是廣泛使用的“robots.txt”文件的工作方式所致。該文件用於指示網絡爬蟲可以訪問網站的哪些部分,而這些爬蟲既服務於搜索引擎的數據收集,也服務於當前的人工智能訓練。谷歌發言人在一份聲明中表示,公司通過完善的網絡標準 robots.txt,爲出版商提供了管理其在搜索中內容的方式。

值得注意的是,去年一名聯邦法官已裁定谷歌在搜索引擎市場存在非法壟斷,濫用其主導地位排擠競爭對手並擡高廣告價格。目前,監管機構正在考慮如何打破這一壟斷,可能的措施包括迫使谷歌出售 Chrome 瀏覽器、禁止其與其他公司簽訂默認搜索引擎協議,或強制其共享部分數據。

此次審判的新進展進一步凸顯了谷歌如何利用其在美國高達90% 的搜索引擎市場份額,通過其人工智能計劃實現自身目標。如果網站避免其內容被谷歌人工智能抓取的唯一途徑是放棄在谷歌搜索結果中的展示,從而切斷與絕大部分網絡用戶的聯繫,這無疑爲谷歌的壟斷行爲再添一項證據。教育網站 Chegg 近期也提出了類似的指控,聲稱谷歌利用其壟斷地位迫使其免費提供內容以訓練人工智能工具。