智谱联手寒武纪,推出模型芯片一体解决方案
模型性能升级 - GLM-4.6新模型在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面能力提升 [3] - 模型代码能力在公开基准与真实编程任务中对齐Claude Sonnet 4 [3] - 上下文窗口由128K提升至200K,以适应更长的代码和智能体任务 [3] - 新模型提升推理能力并支持在推理过程中调用工具,同时增强工具调用和搜索智能体 [3] 芯片适配与量化技术 - GLM-4.6在寒武纪国产芯片上实现行业首次FP8+Int4混合量化部署,形成模型芯片一体解决方案 [3] - FP8+Int4混合模式根据大模型模块功能差异针对性分配量化格式,实现合理资源分配 [4] - 占总内存60%-80%的大模型核心参数通过Int4量化后,权重体积压缩为FP16的1/4,大幅降低芯片显存占用压力 [5] - 推理环节的临时对话数据通过Int4压缩内存,精度损失控制在轻微范围,FP8则针对数值敏感模块以降低精度损失 [5] 行业生态与合作 - 除寒武纪外,摩尔线程已基于vLLM推理框架完成对GLM-4.6的适配,其新一代GPU可在原生FP8精度下稳定运行模型 [5] - 国产GPU完成对前沿大模型GLM-4.6的适配,标志其已具备与前沿大模型协同迭代的能力,加速构建自主可控AI技术生态 [5] - GLM-4.6搭配国产芯片的组合将率先通过智谱MaaS平台面向企业与公众提供服务 [5]