Workflow
Slime框架
icon
搜索文档
用编程大模型登顶开源第一后,智谱GLM团队被拷问了3小时
量子位· 2025-12-24 20:46
文章核心观点 - 智谱公司发布新一代开源大模型GLM-4.7,在代码竞技场WebDev榜单上超越GPT-5.2,位列开源模型第一,并在多项实际应用测试中表现出色,被社区高度认可 [1][2][41] - 模型性能的显著提升源于对后训练阶段的深度优化,包括精细化的发布配方、复杂的预训练数据流程以及创新的自研强化学习框架Slime [4][7][8][24] - 公司强调其产品设计核心是平衡训练/部署成本与性能,致力于让模型在消费级硬件上高效运行,并承诺上市后将持续投入开源,视其为保持技术领先和建立生态的关键 [9][42][46] 模型性能与市场表现 - 在代码竞技场WebDev榜单中,GLM-4.7以1449分(初步分数)排名总榜第6,在开源模型中位列第一,超越了GPT-5.2(1398分)等闭源模型 [2] - 社区实测反馈积极,在编程、游戏开发、PPT制作、海报设计等任务中表现卓越,被用户评价为“Amazing”和“完胜”竞品 [2][3][35][38][39] - 模型获得市场认可,估值400亿美元的Fireworks公司在发布首日(Day0)即宣布支持GLM-4.7,且其订阅价格被认为极具竞争力(一年订阅费约等于Claude Code一个月的Max Plan) [47][51] 技术优化与创新 - 性能提升主要来自后训练阶段的优化:在监督微调(SFT)和强化学习(RL)阶段采用了更精细的“发布配方”,通过对不同领域数据集进行对齐,提升了基准测试分数和实际部署的稳定性 [7][8] - 引入“交错思考”(Interleaved Thinking)机制,使模型在执行动作前进行隐性思考,类似于思维链,从而在处理复杂的多模态任务(如图表分析、看图写代码)时提高了准确度,减少了鲁莽操作 [19][21] - 针对编程能力进行了大量专项优化,使其在多语言编码(包括Python、JS及冷门语言)和复杂逻辑架构理解上表现出色,并深度打磨了智能体框架(影响性能高达30%)、系统提示词和工具调用层级 [15][16][17] 产品设计与战略 - 模型设计以训练成本和部署成本为核心锚点,旨在让模型在消费级显卡上也能运行,同时保持接近300亿参数模型的逻辑能力,体现了在有限参数下压榨极致性能以实现AI真正落地的思路 [9] - 公司建立了一套复杂的预训练数据流程,包括多源采集(高质量论文、小说等)、极致清理(去重、质量过滤、敏感词筛查)以及对齐策略,旨在让模型的写作风格更生动、更人性化 [11][12][18] - 在创意写作和角色扮演方面取得进步,通过从小说和剧本中学习,模型能进行更丰富的细节描写并更好地维持角色设定,减少了“出戏”频率 [14][18] 开源承诺与生态建设 - 面对即将赴港IPO的传闻,公司团队在Reddit AMA中明确承诺,上市后将持续投入开源,并强调开源是公司的核心基因,是回馈生态、保持技术领先和建立开发者标准的最优路径 [42][44][46] - 公司开源了自研的强化学习框架Slime,该框架专为大规模强化学习设计,支持多种对齐算法,旨在帮助开发者更容易地复现GLM级别的模型对齐效果,体现了其对开源生态的回馈 [24][25][27] - 公司在Reddit AMA活动中展现了高透明度和接地气的沟通风格,详细分享了从数据收集到质量过滤的完整流程,赢得了开发者社区的尊重 [28][29][31] 应用场景与功能演示 - 在游戏开发实测中,仅根据提供的素材链接和简单提示,GLM-4.7成功生成了一个“声色俱全”的《植物大战僵尸》游戏 [33][35] - 在办公自动化方面,模型能根据“做一个介绍巴黎的PPT”的简单指令,生成达到直接商用程度的PPT演示文稿 [35][36] - 在创意设计方面,例如生成运动鞋宣传海报,GLM-4.7的效果相比前代GLM-4.6有显著提升,差距一目了然 [38][39]