哈佛大學和哥倫比亞大學等研究機構發佈了名爲OpenProteinSet的開源數據集,包含1600萬個蛋白質多序列對齊(MSA)和相關數據。這一數據集的推出解決了DeepMind的AlphaFold 2訓練數據私有化的問題,爲生物信息學和蛋白質機器學習領域提供了重要支持。AlphaFold 2的蛋白質結構預測準確性引領了該領域,但其私有數據限制了其他研究者的進展。OpenProteinSet包含了所有蛋白質數據庫的蛋白質和各種UniProt集羣的數據,可用於廣泛的AI模型訓練。這一資源對於研究生物學、藥物研發等領域具有重要意義,將推動相關研究的發展。