智谱上线并开源GLM-4.6V系列多模态大模型构建原生多模态工具调用能力

公司动态：智谱发布并开源GLM-4.6V系列多模态大模型 - 北京智谱华章科技股份有限公司于12月8日正式上线并开源GLM-4.6V系列多模态大模型 [1] - 该系列包含两个版本：面向云端与高性能集群场景的基础版GLM-4.6V（106B-A12B）和面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash（9B） [1] - 公司宣布开启“智谱多模态开源周”，并表示将持续开源更多前沿模型 [2] 产品技术特性与性能 - GLM-4.6V将训练时上下文窗口提升到128k tokens，并在视觉理解精度上达到同参数规模SOTA水平 [1] - 模型首次在架构中将Function Call（工具调用）能力原生融入视觉模型，打通从“视觉感知”到“可执行行动”的链路 [1] - 模型围绕“图像即参数，结果即上下文”设计，构建了原生多模态工具调用能力，图像、截图、文档页面等可直接作为工具参数，无需先转为文字描述 [2] - 对于工具返回的统计图表、网页截图、商品图片等结果，模型能够再次进行视觉理解，并将其纳入后续推理链路 [2] - 模型原生支持基于视觉输入的工具调用，完整打通从感知到理解到执行的闭环，能够应对图文混排输出、商品识别与好价推荐以及辅助型Agent场景等复杂视觉任务 [2] 定价策略与市场定位 - GLM-4.6V系列模型较前代GLM-4.5V降价50% [1] - API调用价格定为输入1元/百万tokens，输出3元/百万tokens [1] - 其中轻量版GLM-4.6V-Flash免费供用户使用 [1] 应用场景与工具生态 - GLM-4.6V融入了GLM Coding Plan，并针对用户8类场景定向开发了专用MCP（大模型上下文协议）工具 [1] - 该模型为真实业务场景中的多模态Agent（智能体）提供统一的技术底座 [1] - 传统工具调用在面对图像、视频、复杂文档等多模态内容时，需要多次中间转换，会带来信息损失和工程复杂度，而新模型旨在解决此问题 [1]