Workflow
多模态Coding
icon
搜索文档
刚刚,龙虾军团有了最强「视力」!一眼看图直接写代码
机器之心· 2026-04-02 16:32
GLM-5V-Turbo模型发布与核心能力 - 智谱正式发布专为视觉编程打造的多模态基座模型GLM-5V-Turbo,该模型原生融合视觉与文本能力,能直接看懂设计图并生成代码,打通了从视觉感知到代码实现的开发链路 [2][4] - 模型在三大核心方向上完成进化:在多模态Coding的Design2Code评测中得分94.8,超越Kimi K2.5的91.3分;在多模态工具调用的BrowseComp-VL评测中得分51.9,领先K2.5的42.9分;在Agent复杂任务的ClawEval评测中,其Pass³分数逼近业内闭源天花板Claude Opus 4.6 [7] - 根据评测数据,GLM-5V-Turbo在多项基准测试中表现优异,例如在Flame-VLM-Code得分为93.8,在AndroidWorld得分为75.7,在WebVoyager得分为88.5 [8] 技术架构与训练创新 - 模型采用原生多模态融合架构,从预训练阶段就将文本和视觉信号深度融合,并自研了新一代CogViT视觉编码器,在通用物体识别、细粒度细节理解、几何关系与空间感知等维度有显著提升 [52] - 在强化学习阶段,模型同步优化超过30种不同类型的任务,覆盖STEM推理、视觉定位、视频理解、GUI交互等领域,这种多任务协同训练策略带来了不同能力维度的均衡提升 [55] - 公司通过分层构建数据体系,利用合成环境进行大规模可控数据的自动生成以解决高质量多模态交互数据稀缺的问题,并将GUI Agent的过程奖励模型数据注入预训练阶段,从源头抑制幻觉生成 [57] - 模型工具链扩展至多模态,新增支持多模态搜索、区域框选标注、屏幕截图捕获、网页内容读取等视觉交互类工具,将任务执行链路从纯文本闭环升级为视觉-行动混合闭环 [58] 市场表现与生态整合 - 在大模型API聚合平台OpenRouter上,GLM 5 Turbo的调用量已跻身前五,开发者主要用其支持OpenClaw [9] - 模型在OpenRouter的调用量达到135B tokens,位列第五 [10] - 模型已开放API,Coding Plan用户可申请试用,并可通过BigModel开放平台、AutoClaw及Z.ai等多个渠道访问 [8][9] - 模型优化了与当前主流Agent框架的协同效果,特别是针对Claude Code以及OpenClaw/AutoClaw生态进行了深度协同增强,其视觉能力与Claw的执行能力被无缝打通 [51] - 伴随模型发布,公司同步推出了配套的官方Skills技能库以及预设的“数字分析师”Agents,便于开发者开箱即用,将多模态Agent部署到业务流中 [59] 实际应用测试与性能展示 - 实测表明,GLM-5V-Turbo在“截图写代码”方面表现出色,能根据移动端应用设计草图生成包含交互和排版的精致界面 [12][13][15][17] - 面对SaaS后台设计稿,模型能实现接近1:1的还原,整体布局结构和视觉风格基本保持一致,并生成了386行前端代码 [18][20][21] - 对于信息密度与交互逻辑要求更高的聊天类SaaS设计图,模型不仅能还原整体布局,还能呈现初步的可操作性交互能力 [23][24][26] - 模型的多模态Coding能力延伸至图文混合理解与生成任务,例如能将450多页的《2025年人工智能指数报告》提炼核心结论,并转化为精美的多页HTML演示文档、结构化JSON大纲及Markdown摘要 [29][30][32][33] - 在更复杂的“开局一张图,网页全靠写”任务中,模型能基于示例图片复刻具有动态效果和交互功能的网页,并可通过多轮交互进一步优化结果 [35][37][38][39] - 在终极挑战中,模型通过AutoClaw调用浏览器,成功对一真实网站进行了一比一复刻,保持了原网页的美学设计、排版和交互逻辑,并将结果保存为多个文件 [40][42][43][44][45][46][48] 行业趋势与竞争格局 - 真实世界中超过80%的信息以视觉形态存在,但此前国内许多代码大模型只能依赖纯文本描述来猜测页面布局与结构 [1] - OpenClaw的持续爆火宣告了AI接管电脑、操作手机的新时代到来,而底层大模型基座决定了Agent框架的实力 [61] - 过去几个月,全球开启了一场专门针对Agent优化的“基座军备竞赛”,包括Anthropic的Claude 4.6、月之暗面的Kimi K2.5以及小米的MiMo-V2-Pro等厂商都在长上下文、逻辑推理、代码等方面有较大提升 [62][63] - GLM-5V-Turbo代表了面向Agent的大模型正经历范式转移,不再一味依赖参数规模与调用量的堆叠,而是更加注重解决“真实世界问题”的能力 [64] - 随着API开放及Agent生态打通,公司已将“视觉感知 + 动作执行”的基础设施交到开发者手中 [65]
开卷视觉编程!GLM-5V-Turbo上线,一张草图搞定前端
量子位· 2026-04-02 13:30
文章核心观点 - 智谱AI发布了新一代多模态Coding基座模型GLM-5V-Turbo,该模型在视觉编程(Vision Coding)领域能力突出,能够根据草图、设计稿或网页截图直接生成完整、可交互的前端代码,并具备强大的多模态理解与工具调用能力,标志着国产大模型在多模态编程应用上取得了显著进展 [1][2][3][5] 产品功能与性能表现 - 模型能够根据链接复刻整个网页前端,准确理解页面结构与交互逻辑 [3] - 模型可根据草图、设计稿或网站截图,快速生成完整可运行的前端工程,并准确还原版式与配色 [5] - 在多项多模态基准测试中表现领先:在Design2Code基准得分为94.8,Flame-VLM-Code基准得分为93.8,在MMSearch基准得分为72.9,在V*基准得分为89.0 [9] - 在衡量真实GUI环境操控能力的基准测试中表现突出:在AndroidWorld基准得分为75.7,在WebVoyager基准得分为88.5 [9][10] - 在引入视觉能力后,其纯文本编程能力保持稳定,例如在CC-Frontend基准得分为68.4,在CC-Repo-Exploration基准得分为72.2 [11] 实测应用案例 - 根据一张简单的音乐播放器草图及提示词,模型在十几秒内生成了包含HTML和CSS代码的前端界面,并实现了基本的播放、切歌及列表切换交互功能 [14][16][18][23][24][25] - 模型能够解读包含复杂公式和图表的学术论文,自动拆解论文结构,提炼核心发现与结论,并生成图文并茂的报告,极大降低了理解门槛 [28][30][31][32][33] - 在AutoClaw工具中,模型被应用于“股票分析师”技能,能够解读股票图表并生成包含基本面分析、价格趋势和操作建议的详细报告 [36][37][38][40] 技术实现路径 - 采用原生多模态融合架构,从预训练阶段即共同训练文本与图像能力,并配备了新的视觉编码器(CogViT)和更适合多模态推理的结构(MTP),以提升细节识别、空间关系理解和推理效率 [41][42][43] - 在强化学习阶段,通过同时训练覆盖STEM推理、图像定位、视频理解、GUI操作等30多个任务,使模型能力发展更均衡稳定,避免偏科 [44] - 为提升Agent能力,专门设计了训练体系与数据构造方法:搭建从元素理解到动作预测的训练体系,利用合成环境生成可控可验证的数据,并在预训练阶段提前加入GUI操作等数据以减少幻觉 [45][46][47] - 工具链从纯文本升级为多模态,新增支持多模态搜索、画框、截图、读网页等工具,使模型能实现“看懂环境→规划步骤→动手执行”的完整闭环,并更好地与现有工具配合 [48][49][50] 市场定位与影响 - 该模型显著降低了产品经理等非技术人员制作可交互demo的门槛,有望提升产品设计与开发前期的沟通效率 [7] - 模型在视觉编程、多模态理解及GUI操作方面的强劲表现,被部分观点认为可能对Claude Code等同类产品构成挑战 [13] - 模型已通过Z.ai和AutoClaw平台提供体验,并支持API调用,便于开发者和企业集成使用 [51]