在快速發展的語言模型領域,研究人員和組織面臨着諸多挑戰。這些挑戰包括提升推理能力、提供強大的多語言支持以及有效管理複雜的開放任務。儘管較小的模型通常更容易獲得且成本較低,但在性能上往往不及更大的模型。因此,開發中型模型以有效平衡計算效率與強大的推理及指令跟隨能力,成爲了當前的趨勢。

近日,清華大學發佈了 GLM4,特別是其 GLM-Z1-32B-0414變體,有效應對了這些挑戰。GLM4在一個包含15萬億個標記的大型數據集上進行訓練,旨在提供可靠的多語言能力,並引入了一種名爲 “思維模式” 的創新推理策略。

這一發布使 GLM4與其他知名模型如 DeepSeek Distill、QwQ 和 O1-mini 並肩,且以廣受歡迎的 MIT 許可證進行分發。值得注意的是,儘管其參數規模爲32億,GLM4在推理基準測試中展現出的性能與包含高達6710億參數的 GPT-4o 和 DeepSeek-V3等更大模型相當。

從技術層面來看,GLM-Z1-32B-0414利用高質量的訓練數據,包括合成生成的推理任務,來增強其分析能力。該模型集成了先進的拒絕採樣和強化學習(RL)等技術,以提高在基於代理的任務、編碼、函數調用和搜索驅動的問答任務中的表現。

QQ_1744679226588.png

此外,其 “深度推理模型” 變體通過結合冷啓動方法與延長的 RL 訓練,專門針對複雜的數學、邏輯和編碼任務進行優化。在訓練過程中還採用了成對排名反饋機制,以提高模型的整體推理效果。

一個高級變體 GLM-Z1-Rumination-32B-0414引入了一種新方法,稱爲 “反思”,使得模型能夠進行較長時間的反思推理,以應對像 AI 驅動的城市分析等開放複雜問題。該變體結合了先進的搜索工具與多目標強化學習,顯著提升了其在研究密集型任務和複雜檢索場景中的實用性。爲了滿足不同需求,GLM-Z1-9B-0414版本以其90億參數展現了強大的數學和通用推理能力,證明了較小規模模型的實用性。

基準評估的性能數據強調了 GLM4系列的優勢。特別是 GLM-4-32B-0414在多個基準測試中顯示出強勁的表現,相較於 GPT-4o、DeepSeek-V3和 Qwen2.5-Max 等模型。在 IFEval 指令跟隨基準上,GLM4獲得了87.6的高分。在如零售(68.7)和航空(51.2)等任務自動化基準 TAU-Bench 上,GLM4同樣取得了不錯的成績。在經過 SimpleQA 評估的搜索增強問答任務中,模型錄得了88.1的高分。

此外,GLM4在 BFCL-v3基準的函數調用任務中,整體得分爲69.6,幾乎與 GPT-4o 的表現持平。在通過 Moatless 框架測試的實際代碼修復場景中,GLM4的成功率爲33.8%,凸顯了其實際價值。

GLM4展現了作爲有效語言模型系列的潛力,成功彌合了較小可訪問模型與傳統更大模型之間的性能差距。GLM-Z1系列,尤其是32B 變體,通過提供強大的推理能力,同時保持計算的經濟性, exemplifies this balanced approach。由於其寬鬆的 MIT 許可證,GLM4被定位爲研究和企業應用中高性能 AI 解決方案的重要工具,無需承受傳統大型模型所帶來的巨大計算開銷。

huggingface:https://huggingface.co/THUDM/GLM-Z1-32B-0414

劃重點:

- 🌍 GLM4是一款由清華大學發佈的32億參數語言模型,具備強大的多語言能力和推理能力。

- 📊 該模型在多個基準測試中表現出色,尤其在指令跟隨和任務自動化領域,展現了與更大模型相當的性能。

- 🚀 GLM4通過其 MIT 許可證,使得高性能 AI 解決方案更易於獲取,適合研究和企業應用。