Meta 近日重磅發佈了其迄今爲止規模最大的 AI 驅動化學開放數據集 OMol25,並同步推出了用於預測分子和材料化學性質的通用人工智能模型 UMA(Universal Atom Model)。這兩項創新成果旨在加速藥物研發、電池材料開發和催化劑研究等關鍵領域。

據 Meta 介紹,OMol25數據集包含了超過1億次高精度的分子計算數據,其規模遠超此前任何公開的同類數據集。爲了生成這一龐大的資源,Meta 耗費了超過60億小時的計算時間。OMol25涵蓋了廣泛的分子類型,包括小型有機化合物、生物分子(如蛋白質和 DNA 片段)、金屬複合物以及電解質。此外,該數據集還包含了分子的帶電態、自旋態、多種空間排列(構象)以及化學反應的相關信息,並提供了能量、力值、電荷分佈和軌道等詳細的化學性質數據。目前,OMol25數據集已在 Hugging Face 平臺公開。

芯片 科技 (1)

與 OMol25同步發佈的 UMA 模型,是 Meta 基於 OMol25及其他數據集訓練的全新 AI 模型。UMA 的獨特之處在於其能夠在原子層面預測化學性質,並且速度遠超傳統的計算方法。與以往需要爲特定任務構建專門模型的方法不同,UMA 具備通用性,能夠處理從分子模擬(用於藥物發現)到材料和催化研究等多種應用場景。UMA 基於先進的圖神經網絡構建,並採用了“混合線性專家”架構,實現了計算速度和預測精度的良好平衡。在基準測試中,UMA 的表現已達到此前只有經過精細調整的專用模型才能實現的水準。

Meta 強調,藉助 UMA,以往需要數天才能完成的分子模擬和計算現在僅需幾秒鐘即可完成,這將使研究人員能夠在實驗室合成之前快速篩選數千種潛在的新分子,從而高效評估其作爲藥物或電池材料的潛力。UMA 模型同樣已在 Hugging Face 上開放獲取。

值得一提的是,Meta 還推出了一種名爲“伴隨採樣”的全新 AI 分子模擬方法。與傳統 AI 模型通常需要大量真實世界數據來生成新分子結構不同,“伴隨採樣”即使在缺乏真實樣本的情況下,也能學習並提出新的分子結構。該技術借鑑了隨機控制理論和擴散過程的概念,Meta 團隊認爲擴散過程尤其適用於模擬分子。實驗表明,“伴隨採樣”只需少量計算即可快速探索多種分子結構變體,並且生成的分子構象不僅能與傳統軟件的結果相匹配,在處理具有多個靈活組件的分子時甚至表現更優。相關的模型、代碼和更多信息已在 Hugging Face 和 GitHub 上提供。

儘管取得了顯著進展,Meta 也指出當前仍存在一些挑戰。例如,對於聚合物、某些金屬或複雜的質子化狀態等化學領域,數據的覆蓋尚不完善。此外,AI 模型在預測電荷、自旋和長程相互作用等性質方面仍有提升空間。