智谱科技近日宣布开源其端侧大语言和多模态模型GLM-Edge系列,这一举措标志着公司在端侧真实落地使用场景中的一次重要尝试。GLM-Edge系列由四种不同尺寸的模型组成,包括GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B,分别针对手机、车机等移动平台以及PC等桌面平台进行了优化。
基于GLM-4系列的技术积累,智谱的研究团队对模型结构和尺寸进行了调整,以实现模型性能、实机推理效果和落地便利度之间的最佳平衡。通过与合作伙伴的深入合作和推理优化,GLM-Edge系列模型在一些端侧平台上展现出了卓越的运行速度。特别是在高通骁龙8Elite平台上,借助NPU算力和混合量化方案,1.5B对话模型和2B多模态模型能够实现每秒60tokens以上的解码速度,应用投机采样技术后,解码速度更是能达到每秒100tokens以上。
智谱开源的GLM-Edge系列模型不仅展示了公司在人工智能领域的技术实力,也为开发者和研究者提供了强大的工具和资源,以促进端侧AI应用的发展和创新。
GLM-Edge合集:
https://modelscope.cn/collections/GLM-Edge-ff0306563d2844