智谱与Minimax交出“大招”之后,DeepSeek“平A”了一下
智谱智谱(HK:02513) 36氪·2026-02-13 08:26

行业动态:国内三大AI巨头密集发布新模型 - 国内三大AI巨头DeepSeek、智谱和MiniMax在短时间内接连发布新模型,引发行业高度关注 [1] - 在算力紧缺和同质化加剧的背景下,国产大模型正走向差异化发展路径,分别押注超长文本、智能体工程化和轻量高效等不同方向 [2] DeepSeek:聚焦超长上下文处理 - DeepSeek开启新模型灰度测试,社区推测为DeepSeek-V4-Lite版本,参数规模约200B [3][4][5] - 新模型核心突破在于支持100万(1M)token的超长上下文窗口,能一次性处理相当于《三体》三部曲或500页A4文档的文本量 [6][7] - 在“大海捞针”测试中,该模型在100万token长度下仍能保持60%以上的准确率,且在20万token内准确率曲线近乎水平,有效上下文利用率高 [8][10] - 在约20-28.5万token的实际文档处理测试中,模型展现出可靠的细粒度信息检索能力,能准确定位并还原稀疏信息 [11][12] - 模型定位为纯文本模型,研发重心在长文本建模与信息压缩,因此在涉及几何坐标的SVG代码生成任务上存在局限,这被视作资源分配的必然取舍 [13][15][16] - 有消息称DeepSeek可能有一个参数规模突破1T的超大模型正在训练中,未来可能落实多模态功能 [16] 智谱:推动智能体工程化落地 - 智谱发布GLM-5模型,将技术叙事从“氛围编程”转向“智能体工程化”,旨在完成端到端的复杂系统性工程任务 [17] - 在Artificial Analysis评测中,GLM-5在智能程度、编程能力、代理能力上分别位列全球第4、第6和第3,与顶级闭源模型差距微小 [18][22] - 模型参数总量为744B,激活参数为40B,相比前代GLM-4参数规模翻倍以上,预训练数据从23T增加至28.5T [22] - 技术层面集成了DeepSeek的稀疏注意力机制以提升效率,并引入自研的Slime异步强化学习框架以提升任务连贯性 [22] - 关键突破在于可靠性大幅提升,在AA-Omniscience幻觉率测试中,将幻觉率从前代的90%压缩至34%,成功登顶 [23][25] - 在编程与代理能力上,GLM-5在SWE-bench Verified等测试中达到开源模型领先水平,前端构建任务成功率高达98%,后端重构等场景成功率相比前代提升超过20% [26][28] - 在Vending Bench 2模拟经营测试中,模型构建的智能体在1年内赚取4432美元,展现出对资源分配和长期目标的把控能力 [28] - 公司以MIT License协议将GLM-5完整开源,并深度适配华为昇腾、摩尔线程等国产芯片平台 [29] - 然而,商业端面临严重算力紧缺,GLM Coding Plan套餐价格上调30%以上,并新增额度限制,GLM-5的API目前仅对MAX套餐用户开放 [31][32] - GLM-5的API输出价格是DeepSeek-V3.2的6倍,例如GLM-5-Code新品在输入长度32+时,输出价格为32元/百万tokens [32][33] - 公司坦承算力资源紧张,存在“并发不足已持续1个月”等问题,Pro套餐用户需等待2-3日才能使用GLM-5,Lite套餐用户无明确期限 [32] - 行业面临技术迭代速度远超基础设施供给能力的共同困境,开源生态建设与商用服务稳定性受制于GPU集群规模 [33][34] MiniMax:主打轻量高效 - MiniMax低调上线新模型MiniMax-M2.5,定位为全球SOTA编程模型,对标Claude Opus 4.6 [35][36] - 该模型最显著的特征是采用轻量化设计,激活参数量仅为10B,远低于行业普遍的数百亿至上千亿参数规模 [36] - 模型支持100 TPS的高吞吐推理,速度超过国际顶尖模型,在显存占用和推理能效比上具备优势,有助于降低部署成本 [36] - 在社区第三方代码修复能力测试中,M2.5通过率为61.5%,位列第九,作为参照,GPT-5.3 Codex通过率为73.1%,Claude Opus 4.6为65.4% [36][37] - 考虑到其极小的激活参数规模,该模型在单位算力下的任务完成效率具备一定竞争力 [37] - 在算力紧张的背景下,公司选择以轻量高吞吐模型切入编程赛道,旨在规避高部署成本并抢占企业级实时编程场景 [38] - 目前模型缺乏透明的技术细节,其差异化竞争优势将取决于实际用户体验和价格 [38]

智谱与Minimax交出“大招”之后,DeepSeek“平A”了一下 - Reportify