近日,谷歌宣佈推出新的開源 AI 模型 DataGemma,旨在解決大語言模型(LLM)在處理統計數據時常出現的 “幻覺” 問題。
這種幻覺現象讓模型在回答有關數字和統計的問題時,可能會提供不準確的答案。DataGemma 模型的推出,標誌着谷歌在 AI 領域的一次重要進展。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
減少統計查詢時的幻覺
DataGemma 由兩種不同的方法構成,旨在提升回答用戶問題時的準確性。這些模型基於谷歌的數據共享平臺 Data Commons 的海量真實世界數據,後者擁有超過2400億個數據點,涵蓋經濟、科學、健康等多個領域的信息。這爲模型提供了紮實的事實基礎。
這兩個新模型都可以在 Hugging Face 上用於學術和研究用途,它們都建立在現有的 Gemma 系列開放模型之上,並使用來自 Google 創建的 Data Commons 平臺的大量真實數據來爲他們的答案奠定基礎。該公共平臺提供了一個開放的知識圖譜,其中包含超過2400億個數據點,這些數據點來自經濟、科學、衛生和其他領域的可信組織。
模型入口:https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643
谷歌的研究人員表示,他們針對模型幻覺現象進行了多方面的探索,試圖找出造成這一問題的原因。傳統的模型有時在處理邏輯和算術問題時效果不佳,且公共統計數據往往格式多樣,背景信息複雜,因此理解起來比較困難。
爲了解決這些問題,谷歌的研究人員結合了兩種新方法。第一種叫做 “檢索交叉生成”(RIG),它通過對比模型生成的答案和 Data Commons 中的相關統計信息來提高準確性。爲此,微調的 LLM 會生成描述最初生成的 LLM 值的自然語言查詢。查詢準備就緒後,多模型後處理管道會將其轉換爲結構化數據查詢,並運行它以從 Data Commons 中檢索相關的統計答案,並返回或更正 LLM 生成,並帶有相關引文。
第二種叫做 “檢索增強生成”(RAG),它允許模型根據原始統計問題提取相關變量,並構建自然語言查詢,再通過 Data Commons 獲取相關數據。在這種情況下,微調的 Gemma 模型使用原始統計問題來提取相關變量併爲 Data Commons 生成自然語言查詢。然後,對數據庫運行查詢以獲取相關的統計信息/表。提取值後,它們與原始用戶查詢一起用於提示長上下文 LLM(在本例中爲 Gemini1.5Pro)以高準確度生成最終答案。
顯著提高準確率
在初步測試中,使用 RIG 方法的 DataGemma 模型,能夠將基線模型的事實準確性從5-17% 提高到約58%。而 RAG 方法的效果雖然略遜一籌,但仍然優於基線模型。
數據表明,DataGemma 能準確回答24-29% 的統計問題,且在數字準確性方面高達99%,但在推導出正確結論時仍存在6到20% 的錯誤率。
谷歌希望通過 DataGemma 的發佈,進一步推動相關研究,併爲未來的 Gemma 和 Gemini 模型打下更堅實的基礎。谷歌的研究將持續進行,期待在經過嚴格測試後,將這些改進功能整合到更多的模型中。
劃重點:
🌟 谷歌推出 DataGemma 模型,旨在減少 AI 在統計查詢中的錯誤。
📊 DataGemma 利用谷歌的數據共享平臺,增強模型回答的準確性。
🔍 初步測試表明,DataGemma 在統計查詢的準確性上有顯著提升。
