針對AI模型在學術領域普遍存在的“編造論文”難題,華盛頓大學與艾倫人工智能研究所(AI2)的研究團隊帶來了突破性解決方案——正式發佈開源人工智能模型
長期以來,即便是 GPT-4o 這樣的頂尖模型,在處理學術引用時也面臨高達 78% 至 90% 的“幻覺”率。爲了攻克這一痛點,OpenScholar 另闢蹊徑,建立了一個包含 4500 萬篇學術論文的龐大檢索庫。通過先進的檢索增強生成(RAG)技術,該模型能夠實時查閱最新發表的文獻,並以標準規範的引用格式輸出答覆,徹底告別了“一本正經胡說八道”的尷尬。
在嚴格的 ScholarQABench 基準測試及專家雙盲評審中,OpenScholar 的表現令人驚豔。測試結果顯示,在 51% 的測試案例中,科學家們更偏向於選擇 OpenScholar 生成的答覆而非人類專家撰寫的內容。如果將其引用機制與 GPT-4o 結合,專家的偏好率更是直線飆升至 70%。
目前,OpenScholar 的代碼、數據集及演示版本均已向社會開放,不僅爲科研人員提供了強有力的工具,也爲構建透明、可靠的學術 AI 生態樹立了新標杆。該團隊表示,未來還將繼續迭代,推出支持多步驟檢索與信息聚合的新模型,進一步賦能科學研究。
