在生命科學的前沿,AI 技術正在引發一場革命。最近,生物計算公司 ProFluent 推出了 ProGen3,一款強大的生成式蛋白質語言模型(PLM),它有望在抗體、工業酶及基因編輯領域帶來重大突破。研究顯示,ProGen3的規模和設計優化能夠生成功能強大的新型蛋白質,甚至重塑我們對生物學的理解。
蛋白質是生命體內的關鍵分子,負責多種生理功能。從催化反應到識別病原體,它們的作用不可小覷。然而,設計新的氨基酸序列以實現未曾出現的功能,如新藥物或超穩定的工業酶,面臨巨大挑戰。ProGen3的出現,爲解決這一問題提供了新的思路。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
ProGen3的訓練數據來自一個名爲 Profluent Protein Atlas v1的數據集,包含34億個全長蛋白質和1.1萬億個氨基酸標記,成爲目前最全面的蛋白質數據集之一。研究表明,隨着模型規模的擴大,ProGen3能夠生成更爲多樣化且功能真實的蛋白質。例如,ProGen3-46B 生成的蛋白質多樣性比小模型高出近兩倍,顯示出更廣泛的生物學潛力。
在實際應用中,研究團隊通過 ProGen3設計了一系列高質量的抗體。這些抗體不僅在多項屬性上與已獲批准的藥物相當,還展現出了優越的開發性,挑戰了傳統抗體設計的限制。此外,團隊還開發出緊湊型基因編輯器,僅由592個氨基酸組成,能夠實現精準的基因編輯,展示了 ProGen3在實際應用中的強大潛力。
ProGen3的推出標誌着蛋白質設計進入了一個新的時代。研究者們認爲,繼續擴展這種模型將使我們在藥物發現、酶工程和工業生產等領域獲得更多進展。