在如今這個信息爆炸的時代,尤其是科學研究領域,假論文的出現讓人防不勝防。
最近,來自紐約州賓漢姆頓大學的一位研究員阿赫邁德・阿布丁・哈梅德(Ahmed Abdeen Hamed)開發了一款名爲 xFakeSci 的機器學習算法,能夠高達94% 的準確率識別僞造的學術論文。
哈梅德表示,他的主要研究方向是生物醫學信息學,而在疫情期間,假科研文章更是層出不窮。
他和團隊進行了大量實驗,製作了針對阿爾茨海默症、癌症和抑鬱症這三個熱門醫學話題的50篇假文章,並與同主題的真實文章進行了對比分析。他希望通過這種方法發現其中的區別和模式。
在研究過程中,哈梅德通過使用國家衛生研究院的 PubMed 數據庫提取相關文獻,並運用相同的關鍵詞請求 ChatGPT 生成論文。他的直覺告訴他,假論文和真實論文之間一定存在某種模式。
不同數據集的節點與邊緣比率 ChatGPT 與科學文章。
經過深入分析,xFakeSci 算法主要關注兩大特徵:一是文章中的雙字組合(bigrams),例如 “氣候變化”、“臨牀試驗” 等,二是這些雙字組合與其他詞彙和概念的關聯。
他發現,假論文中出現的雙字組合數量明顯少於真實論文,儘管這些組合在假論文中卻與其他內容緊密相連。
他指出,AI 生成的論文往往是爲了讓讀者信服,而人類研究者的目標則是如實報告實驗結果和方法。
未來,哈梅德計劃將 xFakeSci 算法擴展到更多領域,包括工程、科學及人文學科等,以驗證假論文的特徵是否一致。他強調,隨着 AI 技術的不斷進步,識別真假論文的難度將不斷加大。因此,設計一個全面的解決方案顯得尤爲重要。
雖然目前的算法能檢測出94% 的假論文,但仍有6% 的假文獻可能會漏網。他謙虛地表示,雖然取得了重要進展,但仍需不斷努力,以提高識別率並提升公衆的警覺性。
論文入口:https://www.nature.com/articles/s41598-024-66784-6
劃重點:
📄 ** 新工具 xFakeSci 能高達94% 準確率識別假科研論文,爲科學研究保駕護航。**
🧪 ** 研究人員製作了大量假論文與真實論文對比,發現兩者在寫作風格上存在顯著差異。**
🔍 ** 未來將擴展算法應用範圍,以應對日益複雜的 AI 生成論文挑戰。**