Claude Opus 4.5
搜索文档
智谱、MiniMax合计蒸发近千亿市值,原因为何?
第一财经资讯· 2026-02-23 17:21
市场表现与事件 - 2026年2月23日,港股大模型公司智谱(2513.HK)和MiniMax(0100.HK)股价大幅下挫,分别下跌22.76%和13.35%,与恒生指数及恒生科技指数的上涨行情形成反差 [1] - 自2月20日市值高点后,两家公司市值合计蒸发近千亿港元 [1] - 智谱股价从1月8日116.2港元的发行价最高涨至2月20日的725港元,累计涨幅高达524% [3] - MiniMax股价从1月9日165港元的发行价最高涨至2月20日的970港元,累计涨幅高达488% [3] - 智谱流通市值为1239亿港元,总市值为2497亿港元,市盈率(LYR)为-165.9 [1] - MiniMax流通市值为1954亿港元,总市值为2636亿港元,市盈率(LYR)为-73.0 [1] 公司运营与事件分析 - 智谱GLM-5模型发布后发生算力挤兑,官方在2月21日发布致歉信,承认在规则透明度、灰度节奏和用户升级机制上存在错误 [1] - 事件起因是GLM-5发布后流量超出预期,但公司扩容节奏未能跟上,被迫按顺序逐步开放模型 [2] - 此次事件暴露了模型厂商在技术发布节奏、商业化预期与运营保障能力之间的错位 [2] - 在GLM-5发布并获得开发者肯定后,智谱于2月12日宣布对GLM Coding Plan套餐涨价,整体涨幅自30%起,并取消了首购优惠 [2] - 行业观点认为,智谱的涨价是一个标志性转折点,模型能力越强导致计算资源(token)越稀缺、价格越贵,但公司的商业化运营团队并未完全准备好应对激增的流量 [2] 财务与经营状况 - 智谱过去三年经调整净亏损持续扩大,分别为0.97亿元、6.21亿元以及24.66亿元人民币 [3] - MiniMax在2022年至2025年前三季度累计亏损约为13.2亿美元(约合人民币92.9亿元),其中2025年前三季度亏损为5.12亿美元 [3] - 两家公司共同面临训练成本高昂、持续亏损、算力基础设施有待完善等问题 [3] 行业对比与趋势 - 智谱称GLM-5性能比肩Claude Opus 4.5,但行业认为Anthropic是全球商业化速度最快的大模型企业之一 [4] - Anthropic在商业化上扎根编程领域,其年度经常性收入(ARR)从2023年的1亿美元大幅增长至2026年2月的140亿美元,近期估值高达3800亿美元 [4] - 与Anthropic对比,国产大模型公司在商业化运营、算力设施建设等方面仍有待完善 [4] - 行业分析认为,2026年商业化将成为大模型公司的关键命题 [4] - 根据IDC 2025年数据,全球企业级AI采购中,仅17%以“评测分数”为核心依据,68%更关注场景适配性、服务稳定性与成本控制能力 [4] - 行业评判标准正在转变,模型性能不再是单一指标,“能用”是“好用”的前提,模型落地应用能力、稳定的算力供给和优质的开发者体验成为衡量企业综合实力与发展潜力的关键 [4][5]
DeepSeek V4基准测试泄露?消息疑似为假
新浪财经· 2026-02-16 16:48
核心观点 - 网络流传DeepSeek V4模型在多项基准测试中表现惊人,据称超越了Claude Opus 4.5和GPT-5.2等顶尖闭源模型,并可能以极低成本在近期发布,引发行业高度关注 [1] - 流传的基准测试数据被多方质疑为伪造,至少有两个基准测试的可信度不高,但这从侧面反映了市场对DeepSeek模型的高度期待 [2] 模型性能传闻 - 据泄露信息,DeepSeek V4在SWE-bench Verified上取得了83.7%的分数,超过了Claude Opus 4.5的80.9%和GPT-5.2的80% [1] - 传闻称该模型拥有100万+的上下文长度,并结合Engram记忆机制,实现了全仓库级推理能力 [1] - 模型据称在HumanEval、SWE_bench、上下文长度和成本等多个维度刷新成绩 [1] 发布与成本传闻 - 模型预计发布时间为2月17日(春节) [1] - 据称其成本比OpenAI的模型便宜20到40倍 [1] - 若传闻属实,该模型将可能改变行业游戏规则,成为首个能与顶尖闭源模型匹敌甚至超越的模型 [1] 数据真实性争议 - 流传的基准测试数据被怀疑是假的,例如在官方评分系统下,模型分数不可能达到99.4%,最高只能是99.2%或100% [2] - 研究机构Epoch AI确认,关于FrontierMath的数据是伪造的,因为仅有他们和OpenAI有权对该数据集进行评估 [2] - 至少有两个基准测试的数据被打假,证明这些流传图片的可信度不高 [2] 市场情绪与影响 - 即便数据被证实为伪造,这种夸大其词的泄露现象本身也被视为DeepSeek在市场上取得成功的标志,反映了其深得人心 [2] - 相关传闻在AI圈内引发震动,并在全网疯狂刷屏 [1]
智谱冲击AI的“大厂信仰”
36氪· 2026-02-13 20:24
GLM-5模型发布与市场反应 - GLM-5发布后,智谱连续两个交易日暴涨超20%,市值突破2000亿港元大关 [1] - 模型参数规模由上一代的355B扩展至744B,激活参数从32B提升至40B,预训练数据量从23T提升至28.5T [1] - 智谱证实此前在OpenRouter登顶热度榜首的神秘模型"Pony Alpha"即为GLM-5 [1] GLM-5的技术能力与定位 - 内部评估显示,GLM-5能够以极少人工干预,自主完成Agentic长程规划与执行、后端重构、深度调试等复杂系统工程任务 [1] - 官方称其在真实编程环境中的使用体感已逼近Claude Opus 4.5水平,意味着开源已追上闭源 [2] - 用户实测显示,其前端表现丝滑、细节丰富,Agent模式可以生成可运行的手机应用环境,完成复杂任务 [2] - 模型实现了训练范式创新,团队构建了"slime"异步强化学习基础设施,大幅提升了训练量,使后训练变成高频、细颗粒度迭代 [2] - 在Agent能力上实现开源SOTA,在BrowseComp、MCP-Atlas和-Bench等多个评测基准中取得开源第一 [2] 产品定价策略与比较 - 智谱对GLM Coding Plan套餐价格进行结构性调整,整体涨幅自30%起,取消首购优惠,已订阅用户价格保持不变,生效时间为2026年2月12日 [2][3] - 涨价后,GLM-5输入单价最高6元/百万tokens,输出单价最高22元/百万tokens;GLM-5-Code输入单价最高8元/百万tokens,输出单价最高32元/百万tokens [3] - 相比之下,两个月前Anthropic发布的Claude Opus 4.5模型API价格大幅降价2/3,至每百万tokens 5美元/25美元 [4] - 智谱GLM-5的价格仅为Claude的1/5,在性能基本持平的背景下极具性价比 [4] 公司业务结构与战略转型 - 根据2025年H1财报,公司本地化部署业务占比达85%,是当前基本盘业务,毛利率接近60% [5] - 数据与云端产品占比仅15%,毛利率不高,2025年上半年一度接近亏损 [5] - 本地化部署业务面临应收账款高企、回款难以及定制化需求导致天花板较低等问题 [5] - 公司已明确战略方向,希望将API业务收入占比从当前水平提升至50% [4] - 随着GLM-5的发布,公司主营业务有望从本地化部署加速转型为MaaS服务商,API放量有望带来MaaS业务量价齐升 [5] 独立大模型厂商的竞争与成本结构 - 智谱作为独立于大厂的AI模型公司,发布了领先行业的模型 [6] - 同样独立的MiniMax也发布了新一代文本模型M2.5,在编程能力方面于权威榜单表现超越Opus 4.6,达到行业最好水平 [6] - 独立大模型厂商存在的一个重要原因是算力成本可控 [6] - 根据智谱招股书,截至2025年6月30日,其算力服务费用支出11.45亿元,占研发开支的比重为71.8% [6] - 相比于其他大厂动辄千亿的投入,智谱成本较低,其通常采用租算力的模式减少资金压力 [6] - 与并行科技深度绑定,后者提供了超1.2万P的超算架构算力,支撑了GLM系列模型全流程,双方签订了总额13.9亿元的长期算力服务协议 [7] - 从推理侧看,独立大模型厂商通常依赖第三方云服务,可能带来运营成本额外增加 [7] - 有分析根据微软财报倒算出OpenAI在Azure上2025年第三季度的推理成本达36.5亿美元,而同期收入只有20.6亿美元 [7] - 全栈大厂可通过"内化"成本容忍推理侧亏损,而独立大模型厂则面临边际成本带来的商业化压力 [7]
GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文
36氪· 2026-02-12 18:40
模型性能突破 - GLM-5具备卓越的长任务处理与工程能力,能够连续运行代码超过24小时,期间稳定完成700次工具调用和800次上下文切换[2] - 模型在无并行、无参考代码、关闭网络搜索的严苛条件下,从零开始手写JavaScript代码,成功创建了一个功能完整的Game Boy Advance模拟器,该任务涉及处理500多条CPU指令集、内存分页、音频子系统和图形渲染时序等复杂工程[7] - 在长任务执行中展现出高度稳定性和可靠性,具体表现为:工具调用在语法、格式和准确度上从第1次到第700次无差异;即使经过800次上下文切换,仍能严格遵守元提示的规范和流程;能自主判断何时进行测试、记录信息或切换策略;每次上下文清空后,能准确从笔记和文件中恢复工作状态[7] 基准测试表现 - 在权威榜单Artificial Analysis的评测中,GLM-5达到了与Claude Opus 4.5比肩的水平[10] - 在业内主流基准测试中,GLM-5的编程能力实现了与Claude Opus 4.5对齐[12] - 在衡量模型经营能力的Vending Bench 2测试中,GLM-5取得了开源模型第一的成绩[18] 实际应用与开发潜力 - 模型能够从零生成复杂的3D游戏,例如3D版大富翁,并能根据更精细的提示实现如“龙虾版3D大富翁”对战等高级功能[22][24] - 已有用户利用GLM-5开发了学术版“抖音”应用,并已提交上架苹果App Store,另有10余款APP准备上架[24] - 模型能精准理解并实现复杂的物理规律描述和视觉效果需求,例如使用three.js创建具有多层玻璃壳和动态外观变化的十二面体[27] - 模型具备全栈开发能力,可以制作完整且有设计感的电商网站,以及手搓3D版可交互的《我的世界》[27] 行业影响与意义 - GLM-5标志着开源大模型完成了一次从“助手”到“独立工程师”的质变,能够接受目标后自主执行长任务,极大减少人工调试[29] - 其开源特性将原本属于闭源巨头的长任务和工程能力交到了所有开发者手中,可能对SaaS行业构成冲击,此前市场已因Claude Opus等闭源模型的长任务能力而出现恐慌,导致金融数据服务商FactSet盘中暴跌10%,以及S&P Global、穆迪等公司股价下跌[29] - 模型的出现可能重塑软件行业,引发投资者对年费软件模式的担忧,因为AI能够现场创建如CRM系统等复杂软件[29] 市场反响与公司动态 - GLM系列模型从4.5版本开始专注于AI编程,其“coding套餐”在国内外市场反响火爆[30] - GLM-5发布后,智谱公司采取了限售策略,导致外国网友出现“求”购状态[30] - 智谱公司大楼已成为一个打卡点,显示出产品的高关注度[30]
一图看懂 | AI编程概念股
市值风云· 2026-02-12 18:13
文章核心观点 - 文章主要梳理了人工智能产业链的上市公司,并提及了近期大模型领域的重要技术进展,包括GLM-5模型性能、DeepSeek上下文窗口扩展以及MiniMax新模型内测 [1][5] 人工智能产业链上市公司梳理 - 基础算力层:列举了包括中科曙光、海光信息、寒武纪、润泽科技、优刻得-W、浪潮信息、青云科技-U、首都在线、并行科技、奥飞数据、弘信电子在内的多家公司 [6] - 模型算法层:列举了包括科大讯飞、昆仑万维、拓尔晨、巨人网络在内的公司 [6] - 应用工具层:列举了包括普元信息、卓易信息、金现代、宝兰德、科大国创、众诚科技在内的公司 [6] - 行业解决方案层:列举了包括赛意信息、恒生电子、新炬网络、能科科技、蓝色光标、熵基科技、凌云光、中科创达在内的公司 [6] 大模型技术进展 - GLM-5模型据媒体报道,其性能可以媲美Claude Opus 4.5 [1] - DeepSeek模型更新,其上下文窗口提升至100万Token级别 [5] - MiniMax的M2.5模型正在海外进行Agent内测,即将上线 [5]
GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文!
量子位· 2026-02-12 15:52
GLM-5模型的技术突破与工程能力 - 模型在无并行、无参考代码、关闭网络搜索的条件下,连续运行超过24小时,完成了700次工具调用和800次上下文切换,成功从零手搓了一个Game Boy Advance模拟器[3][11] - 该模拟器工程任务复杂,涉及500多条CPU指令集、内存分页机制、音频子系统和图形渲染时序,对AI的指令遵循和工程稳定性要求极高[9][10] - 在长任务执行中,模型展现出稳定的工具调用能力,第700次与第一次调用在语法、格式和准确度上无差异,且能稳定进行工作判断和上下文状态恢复[12][17] GLM-5模型的性能与基准测试表现 - 在权威榜单Artificial Analysis中,GLM-5达到了与Claude Opus 4.5比肩的水平[15] - 在衡量模型经营能力的Vending Bench 2基准测试中,GLM-5取得了开源第一的成绩[23] - 在主流基准测试中,其编程能力与Claude Opus 4.5对齐,展现出持久的指令遵循能力,即使在800次上下文切换后仍能遵守规范[17] GLM-5模型的实际应用与产品化案例 - 模型能够从零生成复杂的3D版大富翁游戏,并有人已申请将其上架App Store[26][27] - 用户利用模型制作了学术版“抖音”并提交上架苹果App Store,另有10余款APP计划上架[28] - 模型成功完成了对复杂物理规律描述的理解任务,例如根据详细Prompt使用three.js创建了一个光影交错的玻璃十二面体[33] - 模型能够胜任全栈类型任务,如制作完整且有设计感的电商网站,以及手搓3D版可交互的《我的世界》[34][35] GLM-5模型对行业的影响与意义 - 开源大模型GLM-5的出现,标志着AI从助手到独立工程师的质变,能够独立完成长周期、复杂的目标任务[37] - 其能力可能对SaaS行业构成冲击,此前Claude Opus等闭源模型展现长任务能力时,已引发市场对SaaS软件类股票的抛售担忧[38][39][40] - GLM-5将原本属于闭源巨头的长任务能力开源化,为所有开发者提供了重塑工具和创造的可能性[40] - 智谱公司的GLM系列模型从4.5版本开始专注于AI编程,其“coding套餐”在国内外市场反响热烈,GLM-5发布后甚至出现限售和外国网友“求”购的情况[41]
智谱GLM-5实测逼近Claude Opus 4.5,国产大模型实力再获突破!
财联社· 2026-02-12 11:34
GLM-5模型的技术突破与全球地位 - 智谱AI新一代旗舰大模型GLM-5正式上线,其内测匿名版本“Pony Alpha”此前在海外OpenRouter平台登顶热度榜首,代理式编程单项实测超越Claude Opus位列全球第一 [1] - 在权威评测Artificial Analysis Intelligence Index v4.0中,GLM-5以50分综合成绩并列全球第三,仅次于GPT-4.6与GPT-5.2、Claude Opus 4.5,成为全球排名最靠前的国产模型之一 [1] - GLM-5是国内首个跟上硅谷Agentic Coding前沿趋势的模型,实现从“对话式代码生成”到“端到端系统工程”的突破,在构建高并发电商系统等复杂任务中展现顶尖工程能力 [3] - 在专业评测中,GLM-5取得SWE-bench Verified 77.8分(逼近Opus 4.6的80.9分)、Terminal-Bench 2.0开源第一、Vending Bench 2经营模拟夺冠,其Coding与Agent能力达到开源SOTA [4] - 模型采用MoE稀疏架构,擅长长程Agent任务与复杂系统设计,可支撑数百次工具调用、长程记忆与复杂指令执行 [4] - 一手实测显示,GLM-5在工业级后端开发、长步骤复杂任务规划等工程化核心场景中,其“聪明程度”已经逼近Claude Opus 4.5 [7][14] - 在代理编程场景得分589,超越Claude Opus 4.5的585分位列全球第一,而完成同等编程任务的推理成本仅0.14美元,不足Opus 4.6(6.39美元)的1/40 [14] GLM-5的工程化能力与生产力价值 - GLM-5在《TerraLive》全栈开发实测中,展现出能独立负责从需求分析到产品落地的资深全栈工程师+3D图形工程师+交互设计师的能力,交付功能完整、体验流畅、视觉精美的3D地球产品 [8][10] - 从一句提示词到可交互应用耗时极短,效率提升是传统开发模式的数倍,被评价为真正意义上的“超级生产力引擎” [10][13] - 智能写作方面,GLM-5可自动拆解复杂分析任务、输出专业垂直报告,并高效提炼信息 [11] - 该模型标志着国产大模型首次在真实工程场景中拥有比肩国际顶尖水平的“系统架构师”,行业竞争重心从通用能力比拼转向垂直场景深度落地与工程化能力 [4] GLM-5的国产算力生态适配 - GLM-5已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等七家主流国产芯片平台的深度推理适配与算子级优化,能够在国产算力集群上实现高吞吐、低延迟的稳定运行 [5] - 华为昇腾实现Day0全流程适配,在推理侧基于Atlas 800 A3采用W4A8混合精度量化实现744B模型单机高效部署;训练侧在128K长序列下显存减少30G、性能较FA提升8倍 [5] - 摩尔线程在旗舰级AI训推一体GPU MTT S5000上Day-0完成全流程适配与验证;GLM-5在海光DCU平台上已实现高吞吐、低延迟的稳定推理与训练性能 [5] - 此举验证了国产芯片集群对大规模生成式模型的承载能力,成为生态成熟的前夜 [6] 市场反响与资本市场影响 - 匿名模型“Pony Alpha”在海外引爆技术圈,在官方确认其为GLM-5前,已直接驱动相关公司股价连续两日大幅上涨,成为港股AI板块最强催化 [1][16] - 受消息发酵影响,公司股价连续两日强势领涨,公司总市值一度站上1500亿港元,跻身港股科技股前列 [16] - 这是国产大模型首次出现海外技术热度倒逼港股估值的案例,市场交易逻辑已从“跟随者”切换至关注MoE架构、开源SOTA等硬核突破 [17] - 资金押注其技术兑现,验证了市场对国产大模型头部厂商技术迭代与商业化前景的高度认可,意味着资本市场对AI公司的定价权正从财报转向技术预期 [16][17]
智谱股价再创新高、市值超1700亿港元:GLM-5对齐Opus 4.5,七大国芯护航上线
IPO早知道· 2026-02-12 10:55
公司股价与市场反应 - 智谱(2513.HK)今日开盘上涨超25%,再创历史新高,市值突破1700亿港元 [2] - 摩根大通预计公司2025-2030年营收年复合增长率为127%,并将于2029年实现盈利,目标价较当前股价仍有较大涨幅空间 [8] 新模型GLM-5的核心能力与行业意义 - GLM-5在编程能力上对齐Claude Opus 4.5,在SWE-bench-Verified和Terminal Bench 2.0中分别获得77.8和56.2的开源模型最高分数,性能超过Gemini 3 Pro [2][10] - GLM-5在Agent能力上实现开源SOTA,在BrowseComp、MCP-Atlas和τ²-Bench等多个评测基准中取得开源第一 [15] - 在衡量模型经营能力的Vending Bench 2中,GLM-5获得开源模型第一表现,最终账户余额达到4432美元,经营表现接近Claude Opus 4.5 [17] - GLM-5标志着开源阵营首次在“工程可交付性”上实现对顶尖闭源模型的追赶,为全球开发者提供了首个具备系统工程能力的开源基础模型,改变行业格局 [3] - 模型能力正从“会写”进化到“会做事”,GLM-5能够以极少的人工干预自主完成Agentic长程规划与执行、后端重构和深度调试等系统工程任务,使用体感逼近Opus 4.5,在前端、后端、长程任务等编程开发任务上显著超越GLM-4.7,平均增幅超过20% [12] 公司的技术路线与战略定位 - 摩根大通认为模型能力是决定AI模型开发商长期竞争力的根本要素,智谱已展现出坚实的技术实力,只要能将其自研模型的性能保持在全球顶尖梯队,巨大的AI能力需求叠加中国独特的工程成本优势将支撑公司营收走出强劲增长轨迹 [7] - 公司被摩根大通定义为一个具备显著增长潜能的技术能力驱动型平台,其战略明显向智能体系统、工具增强推理与面向开发者的基础设施倾斜,技术路线图正与全球前沿技术能力维度对齐 [7] - 公司可规模化扩张的云API业务以及正在加速推进的全球开发者生态落地,已成为其增长的重要驱动力 [7] 国产算力适配与生态支持 - GLM-5已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配,通过底层算子优化与硬件加速,在国产芯片集群上实现高吞吐、低延迟的稳定运行 [5] - GLM系列模型一直受到全球开发者喜爱,GLM Coding Plan曾全球爆量导致公司启动限售,而GLM-5的上线依托众多国产芯片有力保障了线上服务的稳定和高效 [3]
GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。
数字生命卡兹克· 2026-02-12 09:25
文章核心观点 - 2026年AI领域的核心主航道是Coding(编程)与视频,而Agent(智能体)是构建在这两大基础之上的关键方向 [3] - 智谱AI最新发布的开源大模型GLM-5在编程能力上取得重大突破,其整体能力已能比肩Claude Opus 4.5,标志着国产大模型在AI编程领域已跻身全球一线水平,显著缩小了与顶尖模型的差距 [3][12][71] - GLM-5凭借其接近顶级模型的能力、开源属性及极具竞争力的价格,正在急剧降低国内AI编程的门槛,有望推动AI应用的普及和生态的正向循环 [5][73] 模型性能与基准测试 - **参数规模**:GLM-5从上一代的355B参数(32B激活)扩展到744B参数(40B激活),参数量扩大了一倍以上 [7] - **综合排名**:在Artificial Analysis的跑分中,GLM-5位列开源模型第一,仅次于GPT-5.3-codex和Claude Opus 4.6等顶级闭源模型 [7] - **关键能力突破**: - 在BrowseComp基准(测试Agent网上搜索信息能力)上得分为75.9,超过普通GPT-5.2模型10个百分点,与GPT-5.2 Pro(77.9分)接近 [12] - 在SWE-bench、Terminal-Bench 2.0、τ²-Bench、MCP-Atlas等涉及代码修改、终端操作、工具调用等现实场景的基准测试中,表现已接近Claude Opus 4.5 [12] - 在Long-horizon基准(测试长链条复杂任务规划与执行能力)上表现出色,与实测感受一致,在对标Opus 4.5的长程任务处理上具备竞争力 [12][16] - **效率与成本**: - 上下文窗口为200K,输出为128K,与GLM-4.7一致 [16] - 模型非常节省Token,使用效率高,与GPT-5.3-codex类似 [16] - API价格极具竞争力:输入长度在0-32K tokens时,输入单价为4元/百万tokens,输出为18元/百万tokens;输入长度在32K+时,输入单价为6元/百万tokens,输出为22元/百万tokens [17] - 其API价格仅为Claude Opus 4.5/4.6(输入$5/百万tokens,输出$25/百万tokens)的约七分之一 [17][18] 产品化与市场反馈 - **Coding Plan套餐**:智谱推出了对标Claude Max和ChatGPT Pro的包月套餐,价格是Claude Max套餐的2/3,但提供的Token额度是后者的3倍,市场反响热烈,部分套餐因算力不足已被抢购一空 [19][20] - **开发生态集成**:智谱提供了Coding Tool Helper工具,可便捷地将GLM-5集成到Claude Code、OpenCode、Crush、Factory Droid等主流编码工具中,降低了使用门槛 [20][23] - **开发者推荐组合**:对于无法使用GPT-5.3-codex的用户,推荐使用“Claude Code + GLM-5”的组合,被视为国内可用、门槛最低的体验AI编程魅力的方案 [5] 实际应用案例评估 - **全平台内容分发Chrome扩展开发**: - GLM-5能够根据简单提示词(如“开发一个全平台内容分发Chrome扩展…”)快速生成详细的项目规划和架构设计 [29][30][32] - 成功开发出支持微信公众号、小红书、知乎、掘金、CSDN、微博、今日头条等至少6个平台同步功能的扩展 [38][39] - 在开发过程中遇到一个关于正文提取不全的复杂BUG,GLM-5与Claude Opus 4.5均未能解决,最终由GPT-5.3-codex一轮完成修复,体现了GLM-5与顶尖模型在解决棘手问题上的细微差距 [40][41] - **欢乐斗地主PC模拟器记牌插件开发**: - GLM-5能够根据模糊需求(“帮我写一个记牌插件”)主动进行技术咨询,提供包括Python+OCR识别、图像匹配、手动点击等多种实现方案供选择 [42][43][45] - 在自动识别方案遇到OCR识别失败的问题时,GLM-5能自主添加调试功能,定位问题环节,并最终采用图像模板匹配的方案成功实现记牌功能,识别效果良好(除大小王外) [51][53][55][58] - 其针对该复杂场景(涉及屏幕交互、图像处理)提出的技术方案,与Opus 4.6和GPT-5.3-codex给出的方案一致 [58] - **其他案例**: - 成功复刻了一个包含作物生长、枯萎、杂草虫子等细节,并使用浏览器LocalStorage存储数据的QQ农场游戏,仅消耗约13万tokens [61][62] - 在封装yt-dlp为可下载视频的Skill时表现优异,一轮对话即成功封装,并能准确指出下载YouTube视频需要Cookies的关键点,优于Opus 4.5过去的表现 [65][66][67] 行业意义与竞争格局 - **竞争态势变化**:GLM-5的出现,使得国产大模型在AI编程领域从过去“让人绝望的差距”缩小到“可以追赶的范围”,进入了与OpenAI和Anthropic同一维度的竞争赛道 [70][71][72] - **降低应用门槛**:GLM-5“能力接近、开源免费、价格便宜”的特点,使得企业(B端)和个人都能以更低成本使用顶级AI编程能力,将加速AI编程在国内的普及 [73] - **推动生态发展**:更低的使用门槛预计将吸引更多用户,从而形成更活跃的社区、更多的反馈,驱动模型更快迭代,形成正向循环 [73] - **持续迭代挑战**:尽管差距缩小,但OpenAI和Anthropic仍在快速迭代,下一个版本可能再次拉开差距,竞争将持续 [73]
智谱上线并开源GLM-5
第一财经· 2026-02-12 08:29
公司动态 - 智谱公司宣布上线并开源其最新大模型GLM-5 [2] - GLM-5在编程能力上实现了对Claude Opus 4.5的对齐 [2] - GLM-5在业内公认的主流基准测试中取得开源模型SOTA分数 [2] 产品性能 - GLM-5在SWE-bench-Verified基准测试中获得77.8的开源模型SOTA分数 [2] - GLM-5在Terminal Bench 2.0基准测试中获得56.2的开源模型SOTA分数 [2] - GLM-5的性能超过谷歌的Gemini 3 Pro模型 [2]