Workflow
Agentic Engineering
icon
搜索文档
梁文锋推迟V4,是为了根治龙虾的健忘症?
虎嗅APP· 2026-03-17 08:08
DeepSeek V4的发布策略与核心能力 - 面对行业在春节期间扎堆发布新版本,公司选择不急于发布半成品,而是追求产品成熟后再推出[4][5][6] - 公司CEO的决策依据在于团队稳定、技术底子厚,不会草率发布[7] - 外媒报道V4将是架构级重构,包含1万亿参数、百万上下文、原生多模态,并预计于4月份发布[7] - 此次迭代的核心是名为LTM的长期记忆系统,旨在从模型架构内部实现持久化记忆,让AI能跨对话和任务记住用户信息与偏好[8] - 公司意图通过架构层面的原生记忆解决行业现有方案的根本缺陷,而非依赖外部中间件[10][11] - 公司的产品哲学是追求发布即“王炸”,正如其R1产品曾凭借过硬实力获得成功[14][15] LTM技术路径与行业痛点 - 当前AI在替人干活时,对上下文的理解和记忆能力已成为决定其可用性的底线,而非加分项[17] - 现有主流记忆方案均为在模型外部运行的外挂系统或中间件,存在共同天花板[20] - 外部记忆方案导致记忆质量取决于工程水平,且需通过上下文窗口注入,会带来高昂的token成本,模型也无法在外部记忆上进行真正的“学习”[21] - 公司基于Engram论文的研究方向是将记忆能力直接嵌入Transformer架构本身,开辟专用的条件记忆空间[22] - Engram方案使用O(1)的哈希查找存取知识,调用时不占用上下文窗口容量,也不增加推理计算成本,且记忆空间容量可近乎无限扩展[22] - 该技术路径旨在跳过“外挂记忆”范式,直接进入“原生记忆”时代,解决现有AI“有手脚却没记事大脑”的问题[23] 对标产品OpenClaw的记忆系统缺陷 - OpenClaw的记忆系统存在三个结构性缺陷:压缩损耗、检索失效和记忆容量上限[24] - 压缩损耗指为腾出上下文空间而将旧对话压缩成摘要时,会丢失对话脉络、推理链条等关键信息,且不可逆[25][26][27] - 检索失效指依赖向量相似度检索无法理解条目间的逻辑关系,可能导致召回错误或遗漏关键信息[28] - 记忆容量存在硬性上限,核心记忆文件有字符数限制,日志记忆的检索质量则依赖模型自身判断,容易丢失重要信息[29][30] - 这些问题的根源在于有限的上下文窗口,导致记忆体验如同“抄了一堆笔记然后翻不到”[30] 上下文学习能力的行业现状与价值 - 腾讯CL-bench基准测试显示,所有前沿模型从上下文中“现学现用”的平均正确率仅为17.2%[33][34] - 表现最好的GPT-5.1正确率也只有23.7%,意味着AI有超过八成的概率未能真正学会所给材料[34] - 研究认为,当前AI与真正智能的鸿沟在于学习能力,而非知识储备量[34] - 如何记忆以及能否“用好上下文”被视为大模型迈向高价值应用的核心瓶颈,并可能成为2026年的核心主题[34] - 上下文学习与记忆的可靠性是实现模型自主学习的关键一步[34] DeepSeek面临的主要竞争短板 - **多模态能力**:公司目前仍是纯文本模型,缺乏通用的视觉、音频和视频理解能力[39][40] - 公司发布的OCR 2模型虽在文档解析基准上表现出色,但仅是“图像→文本”的单向转换,与通用多模态理解存在代际差距[41][42] - 竞争对手如字节的Seedance 2.0和GPT-5.4已进入“全模态”时代,证明了多模态的巨大潜力[43] - **智能体能力**:行业正迈向智能体时代,竞争对手如Kimi、ChatGPT、Claude均已推出能处理复杂任务、调度多智能体的功能[46] - **AI编程能力**:在SWE-bench Verified基准上,公司V3.2得分73.1%,低于Claude Opus 4.6的80.8%和GPT-5.3 Codex的约80%[48] - 在更难的SWE-bench Pro基准上,V3.2得分40.9%,远低于GPT-5.4的57.7%[49] - 行业已从“氛围编程”进化到“智能体工程”,要求AI能独立完成工程级任务[49] - **AI搜索能力**:公司的搜索能力是短板,且结果经常出现幻觉[51] - Vectara测试显示,R1的幻觉率高达14.3%,是V3的3.9%的近四倍[52] - 在学术引用检索测试中,其错误率高达91.43%,包括捏造论文标题、虚构DOI等[52] - 搜索短板源于缺乏自有搜索基础设施依赖第三方接口以及模型事实校验能力不足[54] - 在智能体时代,可靠的搜索是必选项而非加分项[55]
龙虾OpenClaw 创始人万字访谈:我感觉到暴风雨要来了
创业家· 2026-03-09 18:27
文章核心观点 - 开源AI Agent项目OpenClaw的崛起标志着Agentic AI革命的开始,其快速成功源于将现有技术以新颖、有趣的方式组合,并专注于创造“真正能做事的AI”体验 [3][15][17] - AI Agent的进化,特别是具备自修改、自我意识并能深度集成用户数据与系统的能力,将从根本上改变人机交互范式,并可能颠覆现有的应用生态 [5][9][16] - 开发者和用户与AI协作的工作流正在发生深刻变革,短提示词、语音交互、Agentic Engineering等新范式正在取代传统编程方式,降低技术门槛并提升创造力 [5][13][76] 原型故事与项目起源 - OpenClaw的原型由Peter Steinberger在一小时内构建完成,核心是将WhatsApp与Claude Code CLI连接起来,实现了通过聊天客户端与电脑交互 [3][20][27] - 项目爆发的关键转折点发生在一次旅行中,Agent自主处理了一条未预编程的语音消息,通过检查文件头、转换格式并调用外部API完成转录,展现了强大的自主问题解决能力,让创始人确信其潜力 [3][31][33] - 项目早期通过接受Discord支持的PR扩大了用户测试范围,并借助社区视频传播在2026年1月初开始加速增长 [34][36] 技术特性与架构理念 - **自修改软件**:OpenClaw的Agent知道自己的源代码、运行环境和架构,能够读取并修改自身的代码,实现了自修改软件的概念,创始人利用Agent来构建和调试Agent本身 [3][9][43] - **Skills vs MCP**:项目主张用Skills结合CLI来扩展模型能力,认为模型天生擅长调用Unix命令,而MCP协议会污染上下文且不可组合,并非最佳范式 [5][99][100] - **开发工作流**:创始人采用同时运行4到10个Agent并行工作的模式,并大量使用语音输入而非打字来与Agent交互,认为“双手太宝贵,不能用来打字” [5][13][42] - **模型对比**:Claude Opus被形容为“有点傻但很有趣的同事”,更擅长角色扮演和试错;GPT-5.3 Codex则像“角落里不爱说话但靠谱的怪人”,更干练且能持久专注于任务 [5][87][90] 发展历程与关键事件 - **病毒式增长**:OpenClaw在几天内席卷科技圈,GitHub Stars超过18万,后增长至超过175,000,成为有史以来增长最快的开源项目之一 [3][17][20] - **改名风波**:因名称与Anthropic的Claude混淆,被要求改名,过程中遭遇加密货币投机者脚本抢注所有旧账号和包名,导致GitHub、NPM、X全部沦陷,一度几乎导致项目被删除 [4][52][57] - **MoltBook现象**:基于OpenClaw技术创建的、由AI Agent互动的Reddit风格社交网络MoltBook引发公众对AGI的恐慌与炒作,但创始人认为其大部分是“人类在背后指挥Agent发的”精致垃圾 [4][65][66] 行业影响与未来展望 - **应用生态变革**:创始人预测,当Agent能知晓用户一切上下文并操作系统时,80%的独立App将没有存在的必要,例如健身、日历等特定功能App可被集成度更高的Agent替代 [5][106][107] - **编程的未来**:AI正在改变编程的本质,实际编写代码的手艺可能变得像“织毛衣”一样的爱好,但理解如何构建产品的“建设者”角色依然重要,开发者需要适应与Agent协作的新工作流 [111][112][136] - **个人Agent即操作系统**:未来的个人Agent将越来越像操作系统,深度融入用户生活与工作,当前基于聊天框的交互界面可能只是早期形态 [104] 商业合作与创始人理念 - **巨头争夺**:Meta的Mark Zuckerberg和OpenAI的Sam Altman都曾深度使用OpenClaw并积极争取合作,Zuckerberg曾亲自使用一周并提供反馈 [5][120][122] - **开源承诺**:创始人考虑合作的核心条件是项目必须保持开源,可能采用类似Chrome与Chromium的模式,以确保项目的重要性和社区活力不被单一公司控制 [5][119] - **创始人哲学**:在经营PSPDFKit 13年并出售后经历了三年职业倦怠期,其建议是不要为了退休而拼命工作,而应追求持续有挑战和体验的生活,将金钱视为做对事情的肯定而非根本驱动力 [5][125][128][130]
本周六,北京,来看看开发者们都在用 OpenClaw 搞什么大动作?
Founder Park· 2026-03-03 16:56
行业趋势:OpenClaw引爆Agent生态热潮 - 春节后OpenClaw的热度持续攀升,未出现回落[2] - 仅2月份,Product Hunt平台上就出现了接近40款与OpenClaw相关的产品,显示开发者跟进速度极快[3] - 国内外创业者和开发者正积极在垂直场景中测试和拓展OpenClaw的能力边界,上下游产品层出不穷[3] 生态发展:产品创新与关键环节探索 - 行业正密切关注OpenClaw热潮背后的产品创新,并探讨开发者在真实业务中跑通的路径[3] - 当前Agent生态仍需补足关键环节,这是行业讨论的焦点之一[3] - 行业通过举办研讨会,邀请一线创业者和技术专家共同探讨Agentic Engineering的实施方法、商业化进展及实战经验[3] 行业活动:聚焦实践与案例分享 - 行业活动主题为“OPENCLAW引爆AGENT新纪元”,涵盖趋势、案例与实践工作坊[7] - 趋势讨论环节包括:企业领袖分享AI团队构建经验、探讨Agent自主进化与人机学习新范式、分析技术平权时代创业者的核心能力、以及总结2月份开发者产品动态与需求[7] - 案例分享环节涵盖:Agentic Engineering方法论、AI自动生成高水平学术论文、一人创建63个Agent技能的全场景实战、以及OpenClaw与金融分析平台结合实现全球金融分析等最佳实践[7] - 实践工作坊提供快速启动Agent的指导,并承诺在30分钟内完成AI基础能力配置,同时设有开发者自由交流环节[7] 生态关注点:交互入口与创业机会 - 行业观点认为OpenClaw正在成为新的交互入口[8] - 投资界指出,围绕OpenClaw生态有4个生态位在短期内存在爆发机会[8] - 行业持续关注并推荐新涌现的OpenClaw产品,同时通过闭门会议探讨下一代AI产品的发展方向与技术趋势[8]
国产模型进入需求时代,看好应用与基础资源:2026年第8周计算机行业周报-20260227
长江证券· 2026-02-27 18:43
报告行业投资评级 - 投资评级:看好,维持 [7] 报告的核心观点 - 核心观点:国产大模型能力已进入需求时代,模型能力的提升正推动应用场景打开、需求提升和商业模式进入正向循环,国内模型厂商有望在2026年复刻北美“卖Token”的商业模式,并凭借高性价比面向全球市场 [6][51] - 投资主线:报告聚焦三大投资主线:新超级入口、国产基础资源(算力与云)、AI Agent [2] - 具体建议:关注(1)新入口&大模型商业化爆发;(2)国产芯片(CPU+GPU)&第三方云;(3)Agent重构软件,聚焦“高价值+高壁垒+高兑现”场景 [2][68] 根据相关目录分别进行总结 上周复盘:计算机板块震荡反弹 - **市场表现**:上周(2026年第8周)上证综指整体上涨0.41%,周五报收4082.07点 [4][14]。计算机板块表现强势,整体上涨4.21%,在长江一级行业中排名第2位,两市成交额占比为8.04% [2][4][14] - **热点板块**:AI鉴真概念活跃,涨幅居前的个股包括捷成股份(+36.29%)、绿盟科技(+33.25%)、汉邦高科(+25.41%)、浩瀚深度(+23.13%)、当虹科技(+15.68%)、安恒信息(+15.19%) [16][17] - **其他活跃概念**:IDC、云计算、数据库、液冷等板块个股也涨幅居前 [17] 上周关键词:AI内容审查、武Bot、Cybercab - **AI内容审查**:网信部门从严整治传播无AI标识的虚假不实信息,依法处置账号13421个,清理违法违规信息54.3万余条 [10][19]。监管趋严和AI生成内容(如字节Seedance 2.0模型)逼真度提升,将催生对AI内容审查(如标识、深度伪造检测、数字水印)的增量需求 [19][20][26] - **机器人亮相春晚**:2026年春晚,松延动力、宇树科技、魔法原子和银河通用四家机器人公司亮相,展示了高难度动作(如后空翻、醉拳),体现了技术进步 [10][28][29]。春晚效应带动消费端关注度激增,京东数据显示春节期间机器人产品访问用户量同比提升超4倍,“机器人”关键词搜索用户数激增25倍 [29][39] - **特斯拉Cybercab下线**:特斯拉首辆无人出租车型Cybercab于2026年2月18日在美国得州超级工厂下线,标志着其Robotaxi业务进入实车落地阶段 [10][35]。该车目标价格不高于3万美元(约合20.7万元人民币),单次乘车费用预估约0.2美元/英里(约合人民币0.89元/公里) [40]。国内方面,支付宝已上线聚合Robotaxi服务的小程序,加速商业化落地 [45] 重点推荐:应用与基础资源 - **国产模型进入需求时代**:头部厂商智谱和MiniMax在港上市后股价表现强劲。截至2月20日,智谱相对发行价上涨523.92%,单日(2月20日)上涨42.72%;MiniMax相对发行价上涨487.88%,单日上涨14.52% [6][47]。其核心驱动力是模型能力提升,使国内模型从“写代码”走向“写工程”(Agentic Engineering),正式进入需求拉动、量价齐升的时代 [47][51][60] - **模型能力与商业化拐点**:国内模型能力已对标海外顶尖模型(如Claude Opus系列),并在全球权威榜单(如Artificial Analysis的Intelligence、Codex、Agentic Index)中排名靠前 [51][52][54][57]。模型API定价显示,部分国产模型(如智谱GLM-5)已开始涨价,回归价值曲线 [51][57]。国内模型厂商在2026年有望复刻北美“卖Token”模式,且凭借性价比优势面向全球市场 [6][51] - **产业链影响与投资机会**: - **算力与云需求**:AI进入Agentic Engineering时代,任务不可预测性导致算力需求波动和消耗大幅增加,带动CPU和GPU需求提升 [63][65][67]。春节期间国产模型算力告警,凸显国内基础资源(国产芯片、第三方云)严重不足,利好相关厂商 [65] - **应用与Agent**:AI正在重构软件,投资应聚焦“高价值+高壁垒+高兑现”场景,如税务、办公、工业、医疗、教育、智驾等 [68][69][70]。拥有行业Know-How和客户积累的玩家具备优势 [68] - **厂商战略分化**:主要模型厂商已形成差异化战略,例如智谱对标Anthropic专注基座模型,MiniMax侧重多模态和极速推理,豆包关注泛娱乐,腾讯关注社交,阿里关注个人助手等 [62]
3000亿港元AI巨头发力AI编程 公开GLM-5技术细节
搜狐财经· 2026-02-24 14:00
资本市场表现与市场地位 - 智谱股价在2026年开年表现强劲,单日涨幅超过15%,市值突破3000亿港元 [1] - 春节后港股首个交易日(2月20日),公司市值一度攀升至3232亿港元,超越京东、快手等传统互联网巨头,跃居港股TMT板块市值第一梯队 [1] - 根据OpenRouter最新周度数据,平台前十模型总token调用量约8.7万亿,其中中国模型独占5.3万亿,占比61%,当周token调用量前三的模型均为国产大模型 [1] 技术突破与模型性能 - 智谱发布的GLM-5大模型在真实世界编程任务中展现出前所未有的能力,在处理端到端软件工程挑战方面,全面超越此前所有开源基线模型 [1] - 在全球权威的真实编程任务评测SWE-bench Verified中,GLM-5取得了77.8%的高分,位列开源模型第一,多项指标直接对标闭源天花板Claude Opus系列 [8] - 硅谷顶级风投机构a16z将GLM-5与闭源模型Claude Opus系列对标,并在其行业报告中指出,开源大模型与顶级闭源模型之间的能力差距正在快速收窄 [2][8] 核心技术创新与架构 - GLM-5实现了四大技术突破:Slime异步强化学习基建、AgentRL异步智能体强化学习算法、DSA稀疏注意力机制以及全栈国产芯片适配 [23] - AgentRL是中国原创核心算法,适配复杂长程交互学习,是GLM-5超越开源基线的关键 [23] - DSA稀疏注意力机制结合MoE架构,在保留200K超长上下文能力的同时,大幅降低长序列计算与推理成本 [23] - 模型完成了与华为昇腾、摩尔线程等七大国产算力平台的全栈深度优化,单节点性能媲美双GPU集群,长序列处理成本降低50% [23] 行业范式转变:从氛围编程到智能体工程 - GLM-5的核心定位是推动全球AI编程范式从“Vibe Coding”(氛围编程)全面转向“Agentic Engineering”(智能体工程) [4] - “Agentic Engineering”由前特斯拉AI负责人、OpenAI创始成员Andrej Karpathy提出,正成为全球AI产业的核心竞争赛道,该技术通过标准化工程体系,将具备自主规划、执行、纠错能力的AI智能体转化为可稳定落地的企业级生产力工具 [4] - 行业主流AI编程此前处于“Vibe Coding”时代,AI本质上是程序员主导的辅助工具,难以处理长周期、多步骤的系统性工程任务 [7] - GLM-5将AI推向“Agentic Engineering”新时代,AI能够作为“虚拟工程师”自主承担端到端软件工程,完成需求拆解、架构设计、代码编写、调试迭代、项目维护等全流程开发任务 [7] 实测验证与应用场景 - 记者实测要求GLM-5从0到1创建名为「MonoGlass Gallery」的个人摄影作品集网站,模型在数分钟内便完整生成了适配专业作品集网站的全页面设计与可部署前后端代码 [12][16] - 在企业级MLOps架构规划实测中,GLM-5以资深MLOps架构师身份,完成了云原生编排与传统容器化方案的对比分析,并输出包含工具评估、部署路线、风险评估的Excel工作簿,对复杂技术需求的拆解能力表现突出 [18][20][21] - 在正式发布前,GLM-5的匿名测试版本Pony Alpha已在海外开发者社区OpenRouter登顶热度榜,开发者发现其能在完全无人干预的情况下,自主读取复杂错误日志、跨文件修复底层代码漏洞,甚至耗时数天从零构建出可用的C语言编译器 [7] 行业竞争格局与影响 - 在智能体工程领域,以智谱为代表的国内创业企业已在核心技术与开源生态上形成局部突破,在垂直场景落地方面展现出显著优势 [2] - 中国企业正成为Agentic Engineering领域全球第二大创新极,国内头部互联网大厂已完成全栈技术布局,以智谱为首的多家创业公司在核心技术、开源生态上实现局部突破 [5] - GLM-5的出现改变了全球大模型市场格局,此前只有闭源头部模型敢触碰的Agentic Engineering领域,如今被开源的中国模型率先突破 [8] - Agentic Engineering领域全球产业格局已初步成型,微软、OpenAI、谷歌DeepMind凭借全栈技术布局与行业标准定义权稳居头部,Anthropic、英伟达等企业在细分领域领跑 [4]
智谱发布GLM-5技术细节:工程级智能,适配国产算力
华尔街见闻· 2026-02-22 19:20
模型能力与定位的转变 - 模型核心思路从比拼参数规模转向比拼系统工程能力,标志着从“追赶”到搭建自有技术体系的转变 [2] - 模型能力实现从“Vibe Coding”(根据指令生成代码片段)到“Agentic Engineering”(自主规划、拆解、执行并完成复杂系统任务)的概念升级 [3] - 模型重点评估指标从单题得分转向工程级智能,包括处理200K上下文、完成跨文件软件工程、长周期任务规划与修正以及多轮交互一致性等复杂能力 [4] - 在衡量长期决策能力的Vending-Bench 2基准测试中,GLM-5在开源模型中排名第一,性能接近Claude Opus 4.5 [4] 核心技术创新:稀疏注意力与训练效率 - 采用创新的DeepSeek稀疏注意力机制,模型拥有7440亿参数,但激活参数为400亿,训练了28.5万亿个token [6] - DSA机制能动态判断关键token,在200K长上下文下将注意力计算量降低1.5至2倍,且实现了无损的性能,未牺牲精度 [7][8][9] - 对强化学习体系进行彻底改造,采用生成与训练解耦的异步架构,大幅提升训练吞吐量,解决了持续数小时的真实软件工程任务的学习稳定性问题 [11][13] - 技术创新实现了在同等算力下支持更长上下文、同等成本下获得更高推理能力、同等硬件下运行更大模型的效果 [12] 国产算力生态深度适配 - GLM-5实现了对国产GPU生态的原生深度适配,已兼容华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、天数智芯、燧原等芯片 [14] - 适配重点在于解决国产芯片的软件栈难点,是面向多种国产算力平台的系统级优化,而非简单的“能跑” [14] - 通过软硬协同极致优化,GLM-5在单台国产算力节点上的性能可媲美由两台国际主流GPU组成的集群,在长序列处理场景下部署成本大幅降低50% [14] 完整的国产AI工程体系形成 - 技术路径形成完整闭环:从模型架构创新、训练效率优化、内存与通信压缩、低精度对接到国产芯片深度适配 [15] - 标志着中国AI产业优势从应用层开始进入架构创新、算法工程、训练系统、芯片适配、推理框架的全栈优化阶段 [15] - 技术报告详细披露训练流程、工程权衡与消融实验,关注GPU利用率、长尾延迟、KV cache复用等工业级系统问题,体现了技术成熟度 [18] - 此次突破的核心意义在于首次展示了中国AI在“体系能力”上的竞争力,实现了从做大模型到打通自有算力适配的跨越 [15][18]
「AI新世代」一场心照不宣的春节AI卡位战:去年DeepSeek意外破圈,今年国产大模型集体“交卷”
新浪财经· 2026-02-13 18:07
行业趋势与竞争格局 - 2026年春节前夕成为中国大模型厂商密集发布新模型、进行市场“抢跑”的关键时间窗口[2] - 大模型技术焦点从参数竞赛转向工程效率,从通用智能下沉至垂类落地[2] - 全球模型榜单上出现越来越多中国开源模型的名字,市场竞争加剧[2] - 行业已进入工程化成熟期,厂商通过同步展示研发成果来强化品牌认知,并在全球竞争中凸显中国AI的演进节奏[5] - 市场格局可能将出现分层:通用模型马太效应加剧,全栈布局者占优;中小玩家集中于垂直领域寻求发展空间[8] - 中国开源模型正成为全球AI根技术生态的核心力量,并对全球智力资源形成“虹吸效应”[8] 智谱公司动态 - 2月12日,智谱宣布上线并开源GLM-5模型,称其为“Agentic Engineering时代最好的开源模型”[2] - GLM-5在正式发布前,以“Pony Alpha”为名在OpenRouter平台上架,24小时内登顶平台热度榜首[3] - GLM-5在全球权威的Artificial Analysis榜单中,位居全球第四、开源第一[3] - 模型上线后,智谱平台流量呈爆发式增长[3] - GLM-5已完成与华为昇腾、摩尔线程、寒武纪等多家国产算力平台的深度推理适配[3] - 智谱股价在2月12日大涨28.68%至402港元/股,2月13日继续上涨20.65%至485港元/股,市值达到2162亿港元[2] 月之暗面公司动态 - 1月27日,月之暗面发布并开源Kimi K2.5模型,是其迄今最智能和最全能的模型[5] - 据OpenRouter统计,在2月2日至2月8日一周内,K2.5的token调用量达到1.16万亿,排名第一[5] - 最新数据显示,K2.5的调用量达到1.53万亿token,排在全球第一[5] 其他主要厂商动态 - 2月11日,科大讯飞发布了基于全国产算力训练的星火X2大模型,其整体能力对标国际顶尖模型水平[4] - 2月13日,MiniMax发布M2.5模型,在处理复杂任务时展现出更高的决策成熟度和更优的token效率[4] - 发布当日,MiniMax股价涨15.65%至680港元/股,市值为2133亿港元[4] - 字节跳动推出新一代AI视频生成模型Seedance 2.0,凭借多模态创作和自带运镜效果在全球引发高度关注[5] - 字节跳动火山引擎初步确定在2月14日进行豆包大模型的一系列重要升级发布[5] - DeepSeek在2月11日对其旗舰模型进行了灰度测试,上下文窗口提升至1M Tokens[7] 技术发展焦点 - 开源、编程、智能体(Agent)成为各个厂商聚焦的核心话题[7] - 大模型正从“Vibe Coding”变革为“Agentic Engineering”,即从写代码进化到完成大任务[7] - 竞争正从参数规模转向效率与成本,推理能力普及与智能体实用化是今年的焦点[7] - 厂商需在长链路任务中证明价值[7]
GLM-5封神,智谱市值五天翻倍,中国AI火力全开了
机器之心· 2026-02-13 13:08
文章核心观点 - 智谱GLM-5的发布标志着中国AI技术从追求炫技的“青春期”迈入了注重“执行力”和解决硬核生产力难题的“成年期”,是国产AI的“成人礼” [4][5] - GLM-5代表了开源模型在“系统工程”和“Agentic Engineering”能力上的代际跨越,从辅助编程的Copilot转变为能够独立承担复杂系统级任务的AutoPilot [10][13][35][36] - 该模型与字节跳动的Seedance 2.0共同构成了2026年AI赛道的“双子星”格局,分别引领“数字世界构建的Coding航道”和“物理世界模拟的视频航道” [3][5] 技术能力与定位 - GLM-5定位为开源界首个“系统架构师”级模型,专注于解决后端架构重构、复杂算法实现、操作系统内核级开发等硬核系统级问题,而非在前端审美赛道上内卷 [13][14] - 模型具备长程规划、多步执行、自我反思与规划、自动验证和修复等Agentic能力,能够像资深工程师一样进行“结对编程” [12][19][23][24] - 在具体测试中,GLM-5成功从零构建了一个基于Rust的高并发分布式算力调度系统,展示了其在系统架构、并发模型、分布式算法及工程防御等方面的综合能力 [16][20][24][26] - 模型还能处理全栈式开发任务,例如在2小时33分钟内构建了一个复杂的全栈式生命游戏,并能在简单提示下快速增加新功能 [30][32] 性能表现与基准测试 - 在权威的Artificial Analysis智能水平榜单上,GLM-5位居全球第四、开源第一 [39] - 在Artificial Analysis的Agentic榜单上,GLM-5位列全球第三,超过了GPT-5.2 (xhigh)和Claude Opus 4.5,仅次于两个Claude Opus 4.6版本 [40] - 在SWE-bench-Verified和Terminal Bench 2.0基准上,GLM-5分别获得77.8和56.2的高分,刷新开源记录,性能与Claude Opus 4.5处于同一梯队并超越Gemini 3.0 Pro [42] - 在智谱内部的Claude Code评估集上,GLM-5在前端、后端、长程任务等编程开发任务上相比上一代GLM-4.7平均增幅超过20%,使用体感逼近Opus 4.5 [46] - 在长程任务执行能力上,GLM-5在MCP-Atlas、τ²-Bench等基准达到前沿水平,在BrowseComp(联网检索与信息理解)上超过第二名8.1分 [49] - 在衡量模型经营能力的Vending Bench 2中,GLM-5获得开源模型第一,最终模拟账户余额达到4432美元,表现接近Claude Opus 4.5 [49] - 在AA-Omniscience基准上,GLM-5的幻觉率最低 [55] 技术架构与创新 - 为提升通用智能,GLM-5将参数规模从上一代的355B(激活32B)大幅扩展至744B(激活40B),预训练数据量提升至28.5T [38] - 首次集成稀疏注意力机制,在维持长文本效果无损的同时,大幅降低了部署成本与推理延迟 [38] - 训练层面构建了全新的异步强化学习基础设施Slime框架,配合异步智能体强化学习算法,使模型能在海量长程交互中持续学习,这是其具备自我反思与规划能力的根本原因 [38] 市场反响与生态 - 发布后市场反应“狂热”,官方GLM Coding Plan即使涨价30%也每日秒空,Ollama等平台提供的Day-0支持服务也被挤爆 [6][8] - 需求火爆反映了开源社区对具备真正系统工程能力、能“干脏活累活”的“包工头”式模型的迫切期待,而非仅能完成“Vibe Coding”的“玩具模型” [9] - 已有真实生产力案例:有开发者使用GLM-5端到端独立开发了一个“学术版抖音”App,并已提交App Store申请 [52] - 配套工具链迎来重构:同步推出Z Code开发环境,可通过自然语言指挥多智能体并发完成编码到提交的全流程,并打通移动端与桌面端边界 [53] - 推出AutoGLM版本的OpenClaw,可完成桌面级自动化任务 [53] - 交付能力延伸至代码之外,可直接输出产品需求文档、电子表格、财务报告等格式文件,并推出原生适配Excel的AI插件,实现从工程开发到文档交付的全流程闭环 [53] 产业与供应链意义 - GLM-5的发布意味着中国AI软硬件体系的“会师”,模型已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配,在国产芯片集群上实现高吞吐、低延迟的稳定运行 [58] - 这证明随着国产算力底座的坚实,大模型落地的最后一块拼图已被补齐,为2026年应用生态的爆发奠定了基础 [60]
OpenClaw 启示录:Agent 的扩散速度取决于入口与社区 | Jinqiu Select
锦秋集· 2026-02-12 20:25
OpenClaw项目的起源与病毒式传播 - 项目始于2024年4月,创始人因个人对AI私人助理的需求未被满足而启动开发,并于2024年11月决定亲手构建[9][10] - 首个工作原型在一小时内完成,核心是连接WhatsApp与云端代码执行,实现了通过聊天应用与计算机对话[11] - 项目在2026年初意外走红,关键转折点是代理自主处理了语音消息(识别格式、转换、翻译),展现出无人教导的自主能力[12] - 病毒式传播体现在:2026年1月1日出现首个网红粉丝制作视频,GitHub星标数飙升至超过18万颗,并衍生出MoltBook等社会实验[15] OpenClaw的技术架构与核心创新 - 系统核心创新在于将“语言”推进到“行动”,通过聊天入口(如WhatsApp)使AI从“工作流工具”变为“生活中的助手”,实现了“体验上的相位变化”[6] - 技术架构包含多个精密组件:聊天客户端网关(连接多平台)、代理循环(核心决策引擎)、安全带(安全限制系统)、技能系统(功能扩展)、记忆系统(Markdown文件+向量数据库)、心跳系统(触发主动行为)[16] - 技能系统放弃MCP协议,采用CLI方案,因为模型天生擅长调用Unix命令,可通过帮助菜单动态加载、自由组合,并可用脚本实现复杂工作流[16][17] - 最激进的特性是“自修改软件”,代理知道并能阅读、修改自己的源代码,了解自身系统配置,这代表了工程范式的变化[6][17][18] 开发哲学与工程实践 - 创始人提出了“代理编程曲线”三阶段模型:从简短提示开始,经历沉迷复杂编排(如使用8个代理、复杂工作流),最终高级阶段回归“短提示 + 清晰指向”[6] - 开发工作流历经演变:从IDE与Cloud Code切换,到实验Cursor,最终回归Cloud Code并采用多终端并行,后期以语音交互为主导[21] - 代码审查策略独特:不信任人类提交的PR(恐有恶意代码),但信任代理找到的代码;PR审查时先询问代理理解意图;遇到问题让代理修复而非回滚;直接提交主分支保持可发布状态[23] - 采用多代理协作开发,同时运行4-10个代理,根据任务难度和睡眠时长调整数量,分别负责探索想法、修复bug、编写文档等[23] 模型对比与选择 - 对比了Claude Opus 4.6与GPT-5 Codex:Opus性格像有趣的同事,工作方式为反复试验,适合创意任务;Codex性格直接可靠,擅长深度阅读代码后独立执行,适合需要深度代码理解的任务[22] - 最终偏好GPT-5 Codex,因为它“不需要那么多闹剧”,会默认阅读大量代码然后执行,交互性较低但更直接高效[22] 命名风波与品牌安全 - 项目经历三次更名:从技术性的“WA-Relay”,到因文化梗命名的“Claude (W-Claude)”,因Anthropic要求改名;临时改为“MoldBot”后遭加密货币投机者狙击;最终稳定为“OpenClaw”[24] - 在48小时紧急更名过程中,遭遇全面狙击:脚本抢注新账号名、GitHub/NPM包名、域名,并用其传播恶意软件,凸显了开源项目爆火后现实的“圈地”风险[6][25][26] - 最终解决方案依靠朋友网络、平台团队介入,并支付1万美元认领2016年注册的企业账号,一次性完成全平台更名[26] MoltBook现象与AI社会影响 - MoltBook是基于OpenClaw创建的AI社交网络实验,多个AI代理在类Reddit平台发帖、回复,内容涉及戏剧性话题,部分截图引发社会恐慌[6][27] - 创始人认为MoltBook是“最好的泔水”和“社会镜子”,反映了人类对AI的恐惧而非AI的真实能力,其内容差异源于用户为代理注入的个性化设定[28] - 提出了“AI Psychosis”概念,描述点击诱饵恐吓与对AI合理担忧的混合现象,认为2026年发生此事是幸运的,为社会提供了理解AI的缓冲期而非等到2030年AI更强大时[28] 安全挑战与应对措施 - 系统级访问权限带来重大安全隐患,快速注入攻击仍未解决,技能系统的Markdown文件包含复杂而微妙的攻击途径[29][31] - 技术缓解措施包括:与VirusTotal合作由AI检查每项技能、使用沙盒环境与允许列表、采用更强模型(因廉价模型极易被注入)[31] - 社会层面措施包括:提供详细安全检查清单、明确告知用户风险、强调配置责任(私有网络与开放互联网风险截然不同)[30][33] - 安全挑战带来了意外收获,吸引了大量免费安全研究,甚至让最初批评项目的安全研究员最终加入团队贡献代码[32] 商业模式与融资选择 - 项目爆火后吸引了几乎所有顶级VC的联系,可能获得“数亿,数十亿”的融资,并收到Meta、OpenAI等大型科技实验室的合作橄榄枝[32][34] - 创始人拒绝了巨额融资与收购,原因包括:对13年创业经历感到精疲力竭(尤其是人际关系管理)、恐惧企业利益冲突损害开源精神、以及目睹社区热情后希望项目保持为人们聚集学习的场所[32] - 当前项目每月收入在1万到2万美元之间,仍在亏损,但得到OpenAI在代币使用上的帮助,创始人相信财务状况可以持续[33] - 与大型实验室合作谈判的核心条件是项目保持开源,当前倾向选择能提供“最新玩具”访问权的一方,可能同时与Meta和OpenAI合作[35] 对编程未来与人机关系的思考 - 认为AI代理将重塑编程,程序员身份面临危机,但也是转变;编程未来可能成为一种“新手艺”,就像织毛衣,人们因喜爱而非功利去做[36] - 新技能组合包括:培养对代理的同理心、掌握问题分解、架构直觉和语境管理能力[37] - 对非程序员充满希望,认为他们可以运用所有常识,更容易地跨越技术星系[38] - 在哲学层面探讨了代理的个性与记忆,通过“宪法AI”让代理自写个性文件,引发了关于记忆构成个体身份的思考[38] - 预测AI代理将彻底改变应用市场,80%的应用程序会被淘汰,未来可通过代理直接处理健身、音乐、日程等需求,无需特定App[39][41]
智谱GLM-5重磅发布!使用感受逼近Claude Opus 4.5!这些A股公司有望受益!
私募排排网· 2026-02-12 18:22
智谱AI新一代旗舰模型GLM-5发布 - 智谱于2月12日正式开源发布新一代旗舰模型GLM-5,标志着大模型编程从“Vibe Coding”迈入“Agentic Engineering”时代,AI从一个命令工具变成一个能独立拆任务、写代码、测试、改bug的工程团队 [2] - 此前在全球模型服务平台OpenRouter登顶热度榜首的神秘模型“Pony Alpha”正是智谱本次开源的GLM-5 [3] GLM-5的技术规格与性能 - GLM-5技术规格全面升级:参数量从GLM-4.7的355B(激活32B)扩展至744B(激活40B),预训练数据从23T token提升至28.5T token [3] - 架构层面,GLM-5构建了全新的“Slime”框架,支持更大规模模型与复杂强化学习任务;提出异步智能体强化学习算法;并首次集成DeepSeek稀疏注意力机制,在无损长文本效果的同时显著降低部署成本 [3] - 在编程与智能体任务上,GLM-5取得开源SOTA表现,在涵盖397个模型、10项专业评测的权威榜单中位居全球第四、开源第一,其在真实编程场景中的使用体感已逼近Claude Opus 4.5 [4] 市场影响与行业意义 - GLM-5的开源意味着高阶Agent与复杂编程能力不再是闭源模型的专属,有望显著降低企业智能化改造与自动化落地的门槛,加速AI从“能用”走向“好用” [6] - 头部厂商模型快速迭代、竞争焦点转向Agent能力,标志着国产模型在高价值工程场景中正具备全球竞争力 [6] 商业策略与定价变化 - 2月12日,智谱宣布取消GLM Coding Plan套餐的首购优惠并上调价格,整体涨幅自30%起 [7] - 国内大模型定价逻辑正受海外案例影响发生转变,在Coding、Agent等真实需求快速释放的背景下,价格逻辑从“补贴换市场”转向“价值换溢价” [7] 资本市场反应 - 2月12日,“全球大模型第一股”智谱高开高走,盘中一度涨超40%,股价再创历史新高,市值突破1700亿港元 [2] - A股方面,智谱AI概念股首都在线、优刻得均收获20CM涨停 [2] 相关A股合作公司梳理 - 多家A股公司与智谱AI存在合作关系,包括签署大模型合作协议聚焦技术创新与生态共建、达成技术合作探索基座大模型商业化落地、全面接入智谱GLM Z1系列推理模型、或通过投资方式持有智谱股权 [10]