藥物開發是一個複雜且成本高昂的過程,伴隨着高失敗率和漫長的開發週期。傳統的藥物發現過程需要從靶點識別到臨牀試驗的各個階段進行大量的實驗驗證,這往往消耗大量的時間和資源。然而,隨着計算方法,特別是機器學習和預測建模的興起,這一過程有望得到優化。

QQ_1743143512429.png

爲了應對當前計算模型在多種治療任務中的侷限性,谷歌 AI 推出了 TxGemma,這是一個專爲藥物開發中的各種治療任務設計的通用大規模語言模型(LLM)系列。TxGemma 的獨特之處在於,它整合了來自不同領域的數據集,包括小分子、蛋白質、核酸、疾病和細胞系,使其能夠覆蓋治療開發流程的多個階段。該系列模型提供了2億(2B)、9億(9B)和27億(27B)參數的選擇,均基於 Gemma-2架構經過全面的治療數據集微調而成。此外,TxGemma 還包含一個交互式的對話模型 TxGemma-Chat,科學家可以通過它進行詳細的討論和機制解釋,從而提升模型的透明度。

從技術角度來看,TxGemma 利用了治療數據共同體(TDC),這是一個涵蓋6600萬條數據點的綜合數據集。TxGemma-Predict 作爲模型系列中的預測變體,在這些數據集上表現出色,其性能與目前在治療建模中使用的通用模型和專業模型相當或更優。值得一提的是,TxGemma 的微調方法在數據稀缺的領域提供了重要優勢,因爲它能夠在顯著減少訓練樣本的情況下優化預測準確性。

TxGemma 的實用性在臨牀試驗的不良事件預測中得到了充分體現,這是治療安全性評估中的關鍵環節。TxGemma-27B-Predict 展現出強大的預測性能,同時使用的訓練樣本顯著少於傳統模型,表明其在數據效率和可靠性方面的提升。此外,TxGemma 的推理速度也支持實際的實時應用,尤其是在虛擬篩選等場景中,27B 參數的模型能夠高效處理大規模樣本。

谷歌 AI 推出的 TxGemma 標誌着計算治療研究的又一重要進展,結合了預測效能、互動推理和數據效率。通過將 TxGemma 公開,谷歌使得進一步驗證和適應多種專有數據集成爲可能,推動治療研究的更廣泛適用性和可重複性。

模型:https://huggingface.co/collections/google/txgemma-release-67dd92e931c857d15e4d1e87

劃重點:  

🌟 TxGemma 是谷歌 AI 推出的通用大規模語言模型系列,旨在優化藥物開發的多個治療任務。  

🔬 該模型系列整合了廣泛的數據集,表現出色,特別是在臨牀試驗不良事件預測中。  

🚀 TxGemma 的推理速度支持實時應用,爲藥物開發提供了強大的計算支持。