在科學與技術的交匯點上,圖(Graphs)作爲表達複雜關係的重要工具,正在逐漸受到研究者的關注。從化學分子設計到社交網絡分析,圖在衆多領域扮演着不可或缺的角色。然而,如何高效、靈活地生成圖形,一直以來都是一個頗具挑戰性的問題。近日,塔夫茨大學、東北大學和康奈爾大學的研究團隊聯手推出了一項名爲 Graph Generative Pre-trained Transformer(G2PT)的自迴歸模型,旨在重新定義圖生成與表示方式。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
與傳統圖生成模型依賴鄰接矩陣(adjacency matrix)不同,G2PT 引入了一種基於序列的 tokenization 方法。這種方法通過將圖分解爲節點集和邊集,充分利用了圖的稀疏性,從而顯著提高了計算效率。G2PT 的創新之處在於能夠像處理自然語言一樣,逐步生成圖,並通過預測下一個 token 的方式完成整個圖的構建。研究表明,這種序列化的表示方式不僅減少了 token 的數量,還提升了生成質量。
G2PT 的適應性和擴展性令人矚目。通過 Fine-tuning 技術,它在目標導向圖生成和圖屬性預測等任務中展現了卓越的性能。例如,在藥物設計中,G2PT 能夠生成具有特定理化性質的分子圖。此外,通過提取預訓練模型的圖嵌入,G2PT 在多個分子屬性預測數據集上也表現出了優越性。
在對比實驗中,G2PT 在多個基準數據集上的表現均顯著優於現有的最先進模型。在生成有效性、唯一性和分子屬性分佈匹配等方面,它的表現都得到了高度認可。研究人員還分析了模型和數據規模對生成性能的影響,結果顯示,隨着模型規模的增加,生成性能顯著提升,且在一定規模後趨於飽和。
儘管 G2PT 在多個任務中展現出了卓越的能力,但研究者們也指出,生成順序的敏感性可能意味着不同圖域需要不同的順序優化策略。未來的研究有望進一步探索更通用且表達力更強的序列設計。
G2PT 的出現,不僅爲圖生成領域帶來了創新的方法,也爲相關領域的研究與應用奠定了堅實的基礎。