在生物科技領域,人工智能的應用正快速推動蛋白質的發現與設計。近日,加州大學伯克利分校(UC Berkeley)與加州理工學院(Caltech)的研究團隊聯合開發了一種名爲 ProteinDT 的新型多模態框架,旨在利用文本描述來輔助蛋白質設計。這一創新方法不僅結合了蛋白質的序列和結構信息,還整合了大量以文本形式存在的生物知識,開啓了蛋白質設計的新篇章。
ProteinDT 的工作流程分爲三個主要步驟。首先,研究團隊利用 “對比性語言 - 蛋白質預訓練”(ProteinCLAP)方法,將文本描述與蛋白質序列進行對齊。這一過程藉助於來自 UniProt 數據庫的41.1萬個文本 - 蛋白質對,採用對比學習技術,確保不同模態間的有效融合。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
接下來,ProteinDT 的 “Facilitator” 模型從文本中生成蛋白質序列的表徵,通過高斯分佈估計條件分佈,以實現精準生成。而最後一個環節則是解碼器,它作爲條件生成模型,根據前一步的表徵信息生成最終的蛋白質序列。
爲驗證這一框架的有效性,研究團隊設計了三項下游任務。首先是文本生成蛋白質任務,通過輸入目標蛋白質特性的文本描述,ProteinDT 能生成相關的蛋白質序列,其準確率超過90%。其次是零樣本文本引導的蛋白質編輯任務,通過兩種方法對已有序列進行編輯,無論是潛在空間插值法還是潛在優化法,都能有效注入文本信息,提升蛋白質生成的質量。最後,團隊還評估了 ProteinCLAP 的學習表徵穩健性與泛化能力,相較於其他六種前沿方法,ProteinDT 在多項基準測試中表現優異。
這一研究不僅爲蛋白質設計開闢了新的思路,也展示了文本數據與生物分子設計結合的巨大潛力,未來有望進一步推動生物醫學和藥物開發的進步。
