Metaは最近、これまでで最大規模のAI駆動型化学オープンデータセット「OMol25」を発表しました。また同時に、分子および材料の化学特性を予測する汎用人工知能モデル「UMA(Universal Atom Model)」も公開されました。これらの革新は、薬剤開発、電池材料の開発、触媒研究などの重要な分野の加速を目指しています。
Metaによると、OMol25データセットには、1億回を超える高精度な分子計算データが含まれており、それ以前の公開されているどのデータセットよりも規模が大きく、膨大です。この巨大なリソースを作成するためには、60億時間を超える計算時間が費やされました。OMol25は、小型有機化合物、タンパク質やDNA断片などの生体分子、金属複合体、そして電解質など、幅広い分子タイプをカバーしています。さらに、データセットには帯電状態、スピン状態、多様な空間配置(コンフォメーション)や化学反応に関する情報も含まれており、エネルギー、力、電荷分布、軌道といった詳細な化学特性データも提供されています。現在、OMol25データセットはHugging Faceプラットフォームで公開されています。

UMAモデルは、OMol25その他のデータセットに基づいてMetaによって訓練された新しいAIモデルとして、OMol25と同時に公開されました。UMAの特徴は、原子レベルでの化学特性の予測を行い、従来の計算手法に比べて格段に速い点です。従来の特定のタスクごとに専用モデルを構築する方法とは異なり、UMAは汎用的なモデルであり、薬物発見における分子シミュレーションから、材料や触媒研究まで、多岐にわたるアプリケーションに対応できます。UMAは先進的なグラフニューラルネットワークに基づいており、「ハイブリッド線形エキスパート」アーキテクチャを採用することで、計算速度と予測精度のバランスを実現しました。ベンチマークテストでは、UMAのパフォーマンスは従来の高度に調整された専用モデルに匹敵しました。
Metaは強調しており、UMAを使用することで、従来数日かかる分子シミュレーションや計算がわずか数秒で完了できるようになり、研究者が実験室での合成前に数千種類の潜在的な新分子を迅速にスクリーニングし、その薬剤または電池材料としての可能性を効率的に評価できるようになりました。UMAモデルもHugging Faceで公開されています。
注目すべき点として、Metaは新たなAI分子シミュレーション手法である「アコモパニングサンプリング」という技術も発表しました。従来のAIモデルが通常大量のリアルワールドデータを使用して新しい分子構造を生成するのに対し、「アコモパニングサンプリング」はリアルなサンプルが少ない場合でも新しい分子構造を学習・提案できます。この技術はランダム制御理論と拡散プロセスの概念を応用しており、特に分子のシミュレーションに適していると考えられています。実験結果では、「アコモパニングサンプリング」は少数の計算で多数の分子構造バリエーションを迅速に探索でき、従来のソフトウェアの結果と一致しつつ、複雑な柔軟な分子の処理においてはさらなる優位性を示しました。関連するモデル、コード、およびさらなる情報はHugging FaceとGitHubで提供されています。
ただし、Metaは現在の課題についても言及しています。例えば、ポリマー、特定の金属、または複雑なプロトン化状態のような化学分野でのデータカバレッジはまだ十分ではありません。また、AIモデルの電荷、スピン、長距離相互作用などの性質の予測能力には改善の余地があります。
