一項對1400萬篇 PubMed 摘要的分析顯示,自 ChatGPT 推出以來,AI 文本生成器已影響了至少10% 的科學摘要,在某些領域和國家,這一比例甚至更高。
來自圖賓根大學和西北大學的研究人員對2010年至2024年間的1400萬篇科學摘要進行了語言變化的研究。他們發現,ChatGPT 和類似的 AI 文本生成器導致了某些風格詞彙的大幅增加。
研究人員首先確定了2024年相比以往年份顯著更頻繁出現的詞彙。這些詞彙包括 ChatGPT 寫作風格中典型的許多動詞和形容詞,比如 “深入挖掘”、“複雜”、“展示” 和 “突出” 等。
根據這些標誌詞,研究人員估計在2024年,AI 文本生成器影響了至少10% 的所有 PubMed 摘要。在某些情況下,這一影響甚至超過了 “Covid”、“流行病” 或 “埃博拉” 等詞彙在其所處時期的影響。
研究人員發現,在中國和韓國等國家的 PubMed 子組中,大約有15% 的摘要是使用 ChatGPT 生成的,而在英國僅爲3%。然而,這並不一定意味着英國作者使用 ChatGPT 較少。
事實上,根據研究人員的說法,實際上使用 AI 文本生成器的可能要高得多。許多研究人員會編輯 AI 生成的文本,以刪除典型的標誌詞。母語使用者在這方面可能具有優勢,因爲他們更有可能注意到這類短語。這使得確定受 AI 影響的摘要的真實比例變得困難。
在可測量的範圍內,AI 的使用在期刊中特別高,比如在 Frontiers 和 MDPI 期刊中約爲17%,在 IT 期刊中更是達到了20%。在 IT 期刊中,中國作者的比例最高,達到了35%。
對於科學作者來說,AI 可能有助於使文章更具可讀性。研究作者 Dmitry Kobak 表示,專門用於摘要的生成 AI 並不一定是問題所在。
然而,AI 文本生成器也可能捏造事實,強化偏見,甚至進行抄襲,它們還可能降低科學文本的多樣性和獨創性。
似乎有些諷刺的是,Meta 公司在 ChatGPT 發佈不久之前發佈的科學開源語言模型 “Galactica” 遭到了科學界部分人士的嚴厲批評,迫使 Meta 將其下線。這顯然並未阻止生成 AI 進入科學寫作,但這可能阻止了一個專門針對這一任務進行優化的系統的推出。
劃重點:
😮 通過對 PubMed 摘要的分析,發現自 ChatGPT 推出以來,至少10% 的科學摘要受到了 AI 文本生成器的影響。
😯 在中國和韓國等國家的 PubMed 子組中,約15% 的摘要是使用 ChatGPT 生成的,而在英國僅爲3%。
😲 AI 文本生成器可能會捏造事實、強化偏見,甚至進行抄襲,因此研究人呼籲重新評估在科學中使用 AI 文本生成器的指導方針。