智譜AI正式開源最新一代通用視覺模型GLM-4.1V-Thinking,基於GLM-4V架構,新增思維鏈推理機制,顯著提升複雜認知任務能力。該模型支持圖像、視頻、文檔等多模態輸入,擅長長視頻理解、圖像問答、學科解題、文字識別、文檔解讀、Grounding、GUI Agent及代碼生成等多樣化場景,覆蓋千行百業的應用需求。
GLM-4.1V-9B-Thinking在28項權威評測中表現卓越,其中23項達成10B級模型最佳成績,18項持平或超越72B參數的Qwen-2.5-VL,涵蓋MMStar、MMMU-Pro、ChartQAPro、OSWorld等基準測試。其9億參數規模結合高效推理能力,使其可在單張3090顯卡上運行,且提供免費商用授權,極大降低了開發者門檻。
智譜AI表示,GLM-4.1V-Thinking通過強化學習與課程採樣技術,優化了跨領域推理能力,展現出對複雜問題的深度思考與解決能力。模型已上線HuggingFace,供全球開發者免費體驗。業界認爲,此舉將推動多模態AI在教育、科研、商業等領域的廣泛應用,標誌着智譜AI在通用人工智能道路上的又一里程碑。