Workflow
多模态商业化
icon
搜索文档
AI应用正当时:智谱发布GLM-5V-Turbo,看好多模态商业化落地继续加速
长江证券· 2026-04-08 22:04
行业投资评级 - 投资评级为“看好”,并维持该评级 [7] 报告核心观点 - AI应用正当时,智谱发布GLM-5V-Turbo,看好多模态商业化落地继续加速 [1][5] - 随着多模态Coding能力持续落地,视觉理解、代码生成与推理调用将带动token需求持续释放,有望驱动Token需求拐点加速与国产模型商业化向上 [12] 事件描述与模型特性 - 2026年4月2日,智谱推出原生多模态Coding模型GLM-5V-Turbo,定位为面向视觉编程打造的多模态Coding基座模型 [2][5] - 模型上下文窗口扩展至200K,定价与GLM-Turbo相同 [5] - 模型为原生多模态Coding基座,从预训练阶段深度融合视觉与文本能力,实现从视觉感知到代码生成的端到端闭环,与以往外挂视觉模块的模型不同 [12] - 模型支持多模态搜索、画框、截图、读网页等工具,将感知-行动链路从纯文本延伸至视觉交互 [12] 模型性能与优势 - 在多模态核心基准中取得领先:在Design2Code中拿到94.8分,超越Kimi K2.5(91.3分);BrowseComp-VL得分51.9分,显著领先Kimi K2.5(42.9分)和Opus 4.6(35.9分) [12] - 纯文本Coding能力在CC-Bench-V2三项测试中保持稳定,未出现退化 [12] - 性能领先源于:1)从预训练阶段深度融合文本与视觉的多模态融合训练;2)30+任务协同强化学习(RL);3)构建多层级体系的Agentic数据;4)新增画框、截图、读网页等多模态工具链 [12] - 内测中字节、美团、快手等给予高度评价,例如TRAE称“实现了从设计稿到代码的完整还原”,美团表示“编程能力仍属国内第一梯队” [12] 应用场景与协同效应 - 与Claude Code、AutoClaw等Agent深度协同,为其赋予视觉能力,大幅拓宽“龙虾”场景任务边界 [12] - 典型应用场景包括:1) 前端复刻:发送草图、设计稿或网站录屏即可生成完整可运行的前端工程,准确还原版式、动效等视觉细节;2) GUI自主探索复刻:结合Claude Code等框架,能自主探索目标网站并直接生成代码复现整个站点;3) 交互式编辑:实现可视化迭代编辑 [12] - AutoClaw已上线“股票分析师”Skill,利用GLM-5V-Turbo的原生视觉能力直接看懂K线走势、估值区间图和券商研报图表,输出图文研报,增强垂直场景能力 [12] 行业影响与展望 - 模型发布正在加速,多模能力不断补全 [12] - 重点关注国产芯片、云侧MaaS平台在Token爆发下的持续景气与盈利改善 [12]