正文

智譜GLM-4-9B模型幻覺率僅1.3%，在全球大模型評測中奪魁

aibase

發布於AI新閒資訊

時間 :Jan 10, 2025

閱讀 :1分鐘

在人工智能領域，大語言模型的"幻覺問題"一直是困擾業界的關鍵挑戰。近日，一項基於HHEM-2.1-Open評估體系的測試結果顯示，智譜AI旗下的GLM-4-9B模型交出了一份令人矚目的成績單。

測試數據顯示，在參與評估的85個大語言模型中，GLM-4-9B以98.7%的事實一致性率和100%的回答率摘得桂冠。特別值得關注的是，該模型的幻覺率僅爲1.3%，這一成績不僅位居榜首，更是超越了行業巨頭OpenAI的GPT系列和Google的Gemini系列模型。

機器人元宇宙科幻

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

這一突破性成果標誌着中國大語言模型在降低"幻覺率"方面取得重要進展，爲提升AI應用的可靠性和準確性帶來新的可能。這不僅體現了智譜AI在模型研發上的技術實力，也爲全球AI領域樹立了新的標杆。

在當前AI技術競爭日益激烈的背景下，GLM-4-9B模型的出色表現無疑將爲智譜AI贏得更多關注，同時也爲中國AI企業在國際舞臺上贏得了更多話語權。

相關推薦

OpenAI人才流動：前研究員田永龍入職騰訊，深耕視覺語言模型研發

OpenAI前研究員田永龍加盟騰訊大語言模型部，專注視覺語言模型研發。此舉被視爲騰訊強化多模態大模型佈局的關鍵引援，凸顯前沿人才爭奪激烈。

以 AI 治理 AI：Reddit 升級自動化系統，日均攔截 2300 萬條垃圾信息

Reddit 利用升級的大語言模型結合自動化工具，精準監測並打擊高度隱蔽的AI生成垃圾內容，包括虛假行爲與人爲炒作，全力守護社區內容真實性。

Anthropic發佈重磅大模型Claude Sonnet 5：性能直逼旗艦，價格卻大跳水

Anthropic發佈新中高階模型Claude Sonnet 5，主打性價比，性能大幅逼近旗艦Opus系列。該模型具備迄今最強代理能力，可自主規劃複雜任務、自查輸出，並靈活調用瀏覽器與終端等外部工具，在推理、編程和知識任務上表現突出。

降本增效大動作：Meta 大規模啓用 AI 接管內容審覈

Meta在扎克伯格力推AI的背景下，加速用大語言模型取代人工審覈，已將AI深度融入內容與廣告合規審查。目前平臺約50%的內容審覈已由AI完成，旨在優化成本與效率。

大模型長文本迎來新突破，智譜AI正式開源旗艦模型GLM-5.2

智譜AI發佈新一代開源旗艦模型GLM-5.2，專攻長程任務，支持1M無損上下文，編程效率大幅提升。採用極寬鬆MIT協議，開發者和企業可自由下載、商用部署。

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2026AIBase