微軟在官網開源了基於圖的 RAG(檢索增強生成)——GraphRAG。該系統通過構建實體知識圖譜來增強大模型的搜索、問答、摘要、推理等能力,特別擅長處理大規模數據集。

image.png

項目入口:https://top.aibase.com/tool/graphrag

傳統的 RAG 系統在處理外部數據源時,過度依賴局部文本片段的檢索,無法捕捉到整個數據集的全貌。而 GraphRAG 則通過構建實體知識圖譜,幫助大模型更好地捕捉文本中的複雜聯繫和交互,從而實現了全局檢索能力。

GraphRAG 的核心包括兩個步驟:構建實體知識圖譜和生成社區摘要。通過社區摘要,GraphRAG 能夠從整個數據集中提取相關信息,生成更全面和準確的答案。此外,GraphRAG 對 tokens 的需求很低,也就是說可以幫助開發者節省大量成本。

微軟在一個100萬 tokens、超複雜結構的數據集上,對 GraphRAG 進行了綜合測試,結果顯示 GraphRAG 在全面性和多樣性測試上,超越了 Naive RAG 等方法,且在播客轉錄和新聞文章數據集上都顯示出了超高的水準,是目前最佳的 RAG 方法之一。

劃重點:

- 💡 GraphRAG 通過構建實體知識圖譜來增強大模型的搜索、問答、摘要、推理等能力,特別擅長處理大規模數據集。

- 💡 GraphRAG 的核心包括構建實體知識圖譜和生成社區摘要兩個步驟,通過社區摘要提取數據集中相關信息,生成更全面和準確的答案。

- 💡 GraphRAG 對 tokens 的需求很低,能夠幫助開發者節省成本。在綜合測試中表現優異,是目前最佳的 RAG 方法之一。