你可曾想過,你的研究論文可能已經薅去訓練AI了。沒錯,許多學術出版商正在將他們的成果 “打包出售” 給開發 AI 模型的科技公司,毫無疑問,這一舉動在科研界引發了不小的波瀾,尤其是當作者們對此一無所知的時候。專家們表示,如果你的尚未被某個大型語言模型(LLM)使用,那麼它很可能也會在不久的將來被 “利用”。

近期,英國的學術出版商泰勒與弗朗西斯(Taylor & Francis)與微軟達成了一項價值1000萬美元的交易,允許這家科技巨頭使用他們的研究數據來提升 AI 系統的能力。而早在六月,美國出版商威利(Wiley)也與某家公司達成了一項交易,獲得2300萬美元的收益,作爲他們的內容被用來訓練生成式 AI 模型的回報。

如果一篇論文在網上可以找到,無論是開放獲取還是付費牆後面的內容,都很可能已經被喂進了某個大型語言模型。華盛頓大學的 AI 研究員 Lucy Lu Wang 表示:“一旦一篇論文被用於訓練模型,就無法在模型訓練後將其移除。”

image.png

大型語言模型需要大量的數據來訓練,這些數據通常是從互聯網上抓取的。通過分析數以億計的語言片段,這些模型能夠學習並生成流暢的文本。學術論文由於其信息密度高且篇幅長,成爲了 LLM 開發者非常寶貴的 “寶藏”。這樣的數據幫助 AI 在科學領域做出更好的推理。

近來,購買高質量數據集的趨勢正在上升,許多知名媒體和平臺也開始紛紛與 AI 開發者合作,出售他們的內容。考慮到如果不達成協議,很多作品可能會被無聲無息地抓取,未來這種合作只會越來越普遍。

然而,有些 AI 開發者,如大型人工智能網絡(Large-scale Artificial Intelligence Network),選擇保持其數據集的開放性,但許多開發生成式 AI 的公司卻對訓練數據保持神祕,“我們對他們的訓練數據一無所知。” 專家們認爲,像 arXiv 這樣的開放源代碼平臺和 PubMed 等數據庫無疑是 AI 公司抓取的熱門目標。

想要證明某篇論文是否出現在某個 LLM 的訓練集中並不簡單。研究人員可以用論文中不尋常的句子來測試模型輸出是否與原文匹配,但這並不能完全證明該論文沒有被使用,因爲開發者可以對模型進行調整,以避免直接輸出訓練數據。

image.png

即便證明了某個 LLM 使用了特定文本,接下來又會發生什麼?出版商們聲稱,未獲得授權使用受版權保護的文本便構成侵權,但也有反對意見認爲,LLM 並不是在複製文本,而是通過分析信息內容來生成新的文本。

目前在美國,一起關於版權的訴訟正在進行,這可能成爲一個具有里程碑意義的案例。《紐約時報》正在起訴微軟和 ChatGPT 的開發者 OpenAI,指控他們在未獲得許可的情況下使用其新聞內容來訓練模型。

許多學者對他們的作品被納入 LLM 的訓練數據表示歡迎,尤其是當這些模型能提升研究的準確性時。不過,這並不是每個職業的研究者都能泰然處之,許多人感到自身工作受到威脅。

總的來說,現階段個別科研作者在出版商做出出售決定時幾乎沒有發言權,而對於已經公開的文章,如何分配信用以及是否被使用都缺乏明確的機制。一些研究者對此表示挫敗:“我們希望有 AI 模型的幫助,但也希望有一個公平的機制,現在我們還沒有找到這樣的解決方案。”

參考資料:

https://www.nature.com/articles/d41586-024-02599-9

https://arxiv.org/pdf/2112.03570