智譜科技近日宣佈開源其端側大語言和多模態模型GLM-Edge系列,這一舉措標誌着公司在端側真實落地使用場景中的一次重要嘗試。GLM-Edge系列由四種不同尺寸的模型組成,包括GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B,分別針對手機、車機等移動平臺以及PC等桌面平臺進行了優化。

基於GLM-4系列的技術積累,智譜的研究團隊對模型結構和尺寸進行了調整,以實現模型性能、實機推理效果和落地便利度之間的最佳平衡。通過與合作伙伴的深入合作和推理優化,GLM-Edge系列模型在一些端側平臺上展現出了卓越的運行速度。特別是在高通驍龍8Elite平臺上,藉助NPU算力和混合量化方案,1.5B對話模型和2B多模態模型能夠實現每秒60tokens以上的解碼速度,應用投機採樣技術後,解碼速度更是能達到每秒100tokens以上。
智譜開源的GLM-Edge系列模型不僅展示了公司在人工智能領域的技術實力,也爲開發者和研究者提供了強大的工具和資源,以促進端側AI應用的發展和創新。
GLM-Edge合集:
https://modelscope.cn/collections/GLM-Edge-ff0306563d2844
