Workflow
智谱发布GLM-4.6,寒武纪,摩尔线程完成适配

官方信息显示,此次升级表现在公开基准与真实编程任务中,GLM-4.6代码能力对齐Claude Sonnet 4; 上下文窗口由128K提升至200K,适应更长的代码和智能体任务;新模型提升推理能力,并支持在推理 过程中调用工具;搜索方面增强模型的工具调用和搜索智能体。 另外,"模芯联动"是此次新模型发布的重点,GLM-4.6已在寒武纪国产芯片上实现FP8+Int4混合量化部 署,这也是行业首次在国产芯片上投产的FP8+Int4模型芯片一体解决方案,在保持精度不变的前提下, 降低推理成本,为国产芯片在大模型本地化运行上探索可行路径。 FP8是8位浮点数(Floating-Point 8)数据类型,动态范围广、精度损失小;Int4是4 位整数(Integer 4) 数据类型,压缩比极高,内存占用最少,适配低算力硬件但精度损失相对明显。此次尝试的"FP8+Int4 混合" 模式,并非简单将两种格式叠加,而是根据大模型的"模块功能差异",针对性分配量化格式,让 该省内存的地方用Int4压到极致,该保精度的地方用FP8守住底线,实现合理资源分配。 具体到模型适配过程中,占总内存的60%-80%的大模型核心参数通过Int ...