国产多模态AI再开源,实测截图转网页、搜图购物,价格减半
36氪·2025-12-09 20:04

智谱AI发布GLM-4.6V系列多模态大模型 - 公司于12月8日晚开源了GLM-4.6V系列多模态大模型,包括面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B)以及面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B)[1] - 公司于12月9日上午还开源了AutoGLM智能体,该智能体在去年10月发布时被视为“全球首个具备手机操作能力的AI Agent”[1] 模型核心能力与架构升级 - GLM-4.6V能够完成智能图文混排与内容创作、识图购物与导购、前端复刻与多轮视觉交互开发以及长上下文的文档与视频理解等任务[3] - 该系列模型将训练时上下文窗口提升到128k tokens,并首次在模型架构中将Function Call(工具调用)能力原生融入视觉模型[4] - 在同等参数规模下,GLM-4.6V系列模型在多模态交互、逻辑推理和长上下文等关键能力上取得SOTA表现[5] 模型性能基准测试表现 - 在覆盖通用视觉问答、多模态推理、多智能体、多模态长文本、图表识别以及空间定位能力的34项测试中,9B版本的GLM-4.6V-Flash有22项的分数超过Qwen3-VL-8B[5] - 106B参数12B激活的GLM-4.6V表现与有着2倍参数量的Qwen3-VL-235B相接近[5] - 具体基准测试数据显示,在MMBench V1.1测试中,GLM-4.6V得分为88.8,GLM-4.6V-Flash得分为86.9[6] 定价策略与成本优势 - GLM-4.6V系列相较于GLM-4.5V降价50%[7] - GLM-4.6V的API调用价格低至输入1元/百万tokens,输出3元/百万tokens,GLM-4.6V-Flash则全面免费[7] - 根据价格表,GLM-4.6V在输入长度[0, 32]千tokens区间,输入单价为1元/百万tokens,输出单价为3元/百万tokens[8] 实际应用体验与功能评估 - 在智能图文混排与内容创作的实际体验中,GLM-4.6V生成文字和网页的速度快、内容准,但所生成的图片一直无法显示[3][9] - 在识图购物与导购功能中,GLM-4.6V能自动调用工具进行全网搜索并形成比价表格,但商品名信息冗余未做整理,且对于模糊指令的理解存在偏差[11] - 在前端复刻能力上,GLM-4.6V可根据截图丝滑生成HTML代码和网页预览,并支持通过自然语言指令进行多轮视觉交互修改,但在修改图标等细节时会出现错误[13][18] - 在长上下文文档理解测试中,GLM-4.6V能同时处理多篇中英文论文并生成逻辑清晰的学习笔记,128k上下文约等于150页文档、200页PPT或一小时视频[21] - 在视频理解能力上,GLM-4.6V能快速解析200M以内的MP4视频内容,并给出准确完整的分析和建议[22][27] 行业竞争与市场影响 - 在当前各家AI能力越来越接近的情况下,谁能把体验做得更顺畅、成本更低,谁就可能吸引更多开发者[29] - GLM-4.6V系列通过大幅降价和提供免费轻量版,降低了视觉模型的接入门槛,对于想尝试多模态AI的个人或小团队来说更具吸引力[28] - 公司宣布本周为其开源发布周,将会有更多成果开源[30]