近年來,大型語言模型(LLMs)在各個領域的應用日益廣泛,從內容創作到編程輔助,再到搜索引擎優化,無不展現出其強大的能力。然而,在生物醫學研究中,這些模型的應用仍面臨着透明度、可重複性和定製化等方面的挑戰。

針對這一問題,海德堡大學與歐洲生物信息研究所(EMBL-EBI)聯合提出了一個開源 Python 框架 ——BioChatter,旨在幫助生物醫學研究人員更輕鬆地使用 LLMs。

核磁共振 醫療 (2)

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

BioChatter 的設計理念是簡化技術複雜性,讓研究人員能夠專注於他們的研究,而不必擔心編程或機器學習的專業技能。通過該框架,研究人員可以從生物醫學數據庫和文獻中提取相關數據,並與外部生物信息學工具實現實時信息訪問。這一切得益於 BioChatter 與 BioCypher 知識圖譜的無縫集成,後者能夠鏈接諸如基因突變和藥物 - 疾病關聯等重要數據,極大地支持複雜數據集的分析。

BioChatter 的核心功能包括:與各類大型語言模型的基本問答交互、可復現的提示工程、知識圖譜的查詢、檢索增強生成、模型鏈式調用等。更爲人性化的是,BioChatter 提供了直觀的 API 接口,研究人員可以輕鬆將其功能集成到 Web 應用、命令行界面或 Jupyter 筆記本中。

在實驗評估中,研究團隊創建了定製化的基準測試,旨在更加準確地評估 BioChatter 的性能。結果表明,使用 BioChatter 的模型在生成正確查詢方面明顯優於未使用提示引擎的模型,這一發現爲 BioChatter 的實際應用提供了有力支持。

展望未來,BioChatter 團隊將繼續與 Open Targets 等生命科學數據庫合作,旨在通過整合人類遺傳學和基因組學數據,幫助用戶更高效地識別和優先排序藥物靶點。此外,他們還在開發一個名爲 BioGather 的補充系統,旨在從基因組學、醫學筆記及圖像等其他臨牀數據類型中提取信息,以解決個性化醫學和藥物開發中的複雜問題。

通過 BioChatter,生物醫學研究領域的科學家們將能夠更高效地利用 LLMs,從而推動科學研究的進步與創新。