公司动态:智谱发布并开源GLM-4.6V系列多模态大模型 - 北京智谱华章科技股份有限公司于12月8日正式上线并开源GLM-4.6V系列多模态大模型 [1] - 该系列包含两个版本:面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B)和面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B) [1] - 公司宣布开启“智谱多模态开源周”,并表示将持续开源更多前沿模型 [2] 产品技术特性与性能 - GLM-4.6V将训练时上下文窗口提升到128k tokens,并在视觉理解精度上达到同参数规模SOTA水平 [1] - 模型首次在架构中将Function Call(工具调用)能力原生融入视觉模型,打通从“视觉感知”到“可执行行动”的链路 [1] - 模型围绕“图像即参数,结果即上下文”设计,构建了原生多模态工具调用能力,图像、截图、文档页面等可直接作为工具参数,无需先转为文字描述 [2] - 对于工具返回的统计图表、网页截图、商品图片等结果,模型能够再次进行视觉理解,并将其纳入后续推理链路 [2] - 模型原生支持基于视觉输入的工具调用,完整打通从感知到理解到执行的闭环,能够应对图文混排输出、商品识别与好价推荐以及辅助型Agent场景等复杂视觉任务 [2] 定价策略与市场定位 - GLM-4.6V系列模型较前代GLM-4.5V降价50% [1] - API调用价格定为输入1元/百万tokens,输出3元/百万tokens [1] - 其中轻量版GLM-4.6V-Flash免费供用户使用 [1] 应用场景与工具生态 - GLM-4.6V融入了GLM Coding Plan,并针对用户8类场景定向开发了专用MCP(大模型上下文协议)工具 [1] - 该模型为真实业务场景中的多模态Agent(智能体)提供统一的技术底座 [1] - 传统工具调用在面对图像、视频、复杂文档等多模态内容时,需要多次中间转换,会带来信息损失和工程复杂度,而新模型旨在解决此问题 [1]
智谱上线并开源GLM-4.6V系列多模态大模型 构建原生多模态工具调用能力
证券日报网·2025-12-09 18:46