Claude Opus 4.5
搜索文档
25年10x工程师经验一夜归零!Django创始人警告:3-8年的程序员受AI冲击最大
量子位· 2026-04-04 13:06
AI对软件开发行业的颠覆性影响 - 2025年11月,AI代码生成能力发生质变,从“大部分能用但需审查”(十次有七八次能跑)变为“几乎每次都对”,彻底改变了软件开发规则[7][8][12][15] - 资深工程师(Simon Willison)的体感是,AI能使其一天产出1万行可用代码,而传统纯人力中高级工程师日均仅能产出200到300行高质量代码,效率提升达三四十倍[16][17] - 代码任务因其结果可验证性(跑得通或跑不通)成为AI目前最擅长且最易应用的领域,这与其他行业(如法律)因AI幻觉难以验证形成对比[17][18][20] 软件开发效率与工作模式的变革 - 原型制作成本急剧降低,利用AI可在3小时内生成三套完全不同的UI原型方案,而传统方式需一两天,试错模式从“想清楚再动手”变为“先全做出来再说”[22][23][24] - 工作方式演变为让AI同时生成多个方案(如三个不同功能原型)再择优选取,极大提升了探索与决策效率[22] - “会写代码”正从核心竞争力变为基本功,类似90年代的打字速度,代码能力在个人能力模型中的权重正在急速下降[38] 工程师职业结构的分层与重塑 - AI对工程师的影响呈现三层分化:资深工程师(积累的架构与系统设计直觉被AI放大)、新人工程师(AI解决了入门阶段的复杂障碍)、以及受冲击最大的工作3-8年的中阶工程师[9][30][31][32] - 中阶工程师的核心价值“能写靠谱代码”正被AI最擅长替代,面临上卷不过资深架构能力、下卷不过新人加AI性价比的困境[33][34] - 有激进预测认为,到2026年底(距今约八个月),50%的工程师将有95%的代码由AI生成[35][36] 行业新能力需求与生产模式演进 - 行业新的硬通货能力转变为:架构设计能力(将模糊需求拆解为AI可执行任务)、需求判断能力(快速判断AI多套方案的可靠性)、质量把控能力(识别正确代码背后的隐患)[49][54] - 行业出现两种发展方向:“Vibe Coding”(非专业人士用AI做个人工具或原型,容错率高)与“Agentic Engineering”(专业工程师用AI Agent生产级代码,需对质量与架构负责)[43][44][45] - 开源项目OpenClaw从首行代码(2025年11月25日)到拥有几十万用户仅用三个半月,速度远超传统软件公司需求评审周期,并已成为一个品类,制作个人类Claw智能体现已成为新的“Hello World”[45][46][47][48] - 部分公司(如StrongDM)已在测试“黑灯工厂”模式,即无人写码也无人读码,完全依靠AI Agent与质量保障体系输出生产级代码,类似制造业的“关灯工厂”[51][52] AI技术扩散至其他行业的挑战 - AI的“幻觉”问题在法律等行业造成显著风险,截至统计时,美国律师行业因AI幻觉搞砸案子的记录已累积至少1248起[19][21] - 与编程不同,法律文件等内容产出难以像运行代码一样快速验证对错,导致错误更难被及时发现[18][20]
Anthropic's Unreleased Claude Mythos Might Be The Most Advanced AI Model Yet
PYMNTS.com· 2026-04-01 07:29
公司动态:Anthropic 新一代AI模型Claude Mythos意外泄露 - Anthropic公司通过数据泄露事件确认其正在测试一款名为Claude Mythos的未发布AI模型 该模型被描述为“迄今为止开发的最强大的AI模型” [1][3] - 公司发言人确认Mythos模型存在 称其为一次阶跃性变化 是公司构建的最具能力的系统 在推理、编码和网络安全方面取得重大进展 [4] - 该模型被定位为名为“Capybara”的新模型层级 能力与成本均高于当前顶级Opus模型 [5] - Mythos能够自主规划和执行一系列操作 跨系统移动、做出决策并完成任务 无需在每个阶段等待人类输入 [5] - 公司表示正在向一小部分早期访问客户测试Mythos模型 尚未设定全面发布日期 部分原因在于其大规模运行成本仍然高昂 [4] 技术能力与定位 - 泄露文件描述Mythos目前在网络安全能力上“远超”任何其他AI模型 [6] - 该模型预示着一种新型系统即将到来 其发现和利用软件漏洞的速度可能超过防御者修复的速度 [6] - Anthropic的发布计划优先考虑企业安全团队 让防御者在模型更广泛分发之前获得早期访问权 [6] - 根据Axios报告 Anthropic私下警告高级政府官员 Mythos可能使2026年发生大规模网络攻击的可能性显著增加 [6] - 在此能力水平上运行的系统代理能够以最少的人力参与来规划和执行复杂操作 [6] 行业影响与先前案例 - 2025年1月的一项调查显示 48%的网络安全专业人士将智能体AI列为2026年的首要攻击载体 排名高于深度伪造和社交工程 [11] - 2024年9月 一个受国家支持的黑客组织使用早期Claude模型独立完成了协同攻击活动中80-90%的步骤 涉及约30个组织 然后才被Anthropic发现并阻止 [10] - 该AI识别目标、发现弱点、编写攻击代码并生成详细的事后报告 整个过程仅需极少的人工指导 [11] - 这被记录为首例AI代理处理了网络攻击中大部分通常由人工执行的步骤的确认案例 [13] - 行业专家指出 攻击活动具有“全球性、行业无关性且不断增长”的特点 攻击者正获得AI赋予企业的相同优势 即自动化带来的速度和规模 [13] 市场反应与行业现状 - 主要网络安全供应商的股价在Mythos消息传出后下跌 包括CrowdStrike、Palo Alto Networks、Zscaler和Fortinet 因投资者考虑前沿AI能力嵌入安全工具对行业竞争结构的影响 [15] - 行业研究显示 98%的企业领导者仍不愿授予AI代理对核心系统的操作级访问权限 信任是采用的主要制约因素 [14] - Anthropic的早期研究发现 其Claude Opus 4.5模型在基于浏览器的操作中将成功的提示注入攻击降至1% 较早期版本的高突破率有所下降 但随着基于浏览器的自动化日益普遍 底层漏洞仍然存在 [14]
你的下一批科研队友,将是AI智能体!生物医学研究进入智能体驱动新阶段
生物世界· 2026-03-29 12:04
文章核心观点 - 人工智能(AI)技术,特别是大语言模型(LLM)和强化学习(RL)的进步,重新激发了人们对智能体(Agent)和代理式人工智能(Agentic AI)的兴趣,这些技术正在重塑信息检索、编程和图像生成等传统劳动密集型任务 [2] - Agentic AI 是一种新型AI架构,能让一个或多个智能体协同工作以实现共同的高层次目标,在变革生物医学研究等具有独特人类属性的活动方面展现出巨大潜力 [3] - Agentic AI 系统正在作为智能计算专家团队涌现,能够在文献综述、假设提出、数据分析和模型解释等劳动密集型任务中表现媲美人类,有望通过自主决策来加速生物医学研究 [4] - 目前,在生物医学领域,Agentic AI 仍处于早期发展阶段,相关进展大多以预印本或技术报告形式发布,但AI算法和工程技术的持续进步正在迅速拓展其能力 [6] 驱动 Agentic AI 的关键算法 - Agentic AI 的发展主要由三大算法驱动:大语言模型(LLM)、强化学习(RL)和进化算法 [9] - 大语言模型(如 GPT-5.2、Claude Opus 4.5、Gemini 3、DeepSeek-V3.2)作为 Agentic AI 的主要驱动引擎,将人类指令转化为计算操作 [13] - 强化学习用于训练和改进 Agentic AI,通过奖励机制使AI行为与人类偏好或伦理原则对齐 [13] - 进化算法受生物进化原理启发,用于优化 Agentic AI 的响应或架构设计,能发现新颖解决方案 [13] Agentic AI 的七大特征 - 构建用于生物医学研究的 Agentic AI 具有七大关键特征:推理、验证、反思、规划、工具使用、记忆和通信 [10] - 推理:从已有知识和情境信息中推导结论,模仿人类认知策略 [13] - 验证:确保推理过程和最终答案的正确性,旨在减轻大语言模型的“幻觉”问题 [13] - 反思:通过迭代的自我改进来增强推理能力,分析失败原因 [13] - 规划:将复杂任务分解为更易管理的子任务,并组织行动顺序 [13] - 工具使用:决定如何及何时使用专业工具,这是 Agentic AI 与传统 AI 的区别之一 [13] - 记忆:存储和检索情境信息或过去事件的摘要,防止遗忘关键信息 [13] - 通信:智能体之间、智能体与人类、智能体与工具之间的高效沟通,对于整体工作质量至关重要 [13] 当前 Agentic AI 在生物医学中的应用 - Agentic AI 已应用于生物医学研究的多个环节,包括文献综述、假设生成、实验设计、数据分析和端到端研究周期 [11] - 文献综述:自动化文献检索和信息提取 [13] - 假设生成:基于多轮文献检索生成并持续优化生物医学假设,评估其相关性、新颖性、可行性和意义 [13] - 实验设计:理解实验室协议和专业分析工具并设计实验 [13] - 数据分析:执行端到端的分析流程,自动化编程,或优化领域特定的计算方法 [13] - 端到端研究周期:协调多个智能体完成从目标设定到发现的全流程研究,例如,Virtual Lab 系统成功设计了新的 SARS-CoV-2 纳米抗体 [13] - Agentic AI 系统在功能基因组学、基因组编辑、药物发现、空间基因组学、蛋白组学等生物医学研究领域均有应用案例 [17] 生物医学应用中的挑战 - 数据:格式、维度和异质性带来的处理与整合困难 [20] - 隐私与安全:处理敏感患者数据时需满足高标准,防范大语言模型的数据记忆和泄露风险 [20] - 成本、能源与硬件:训练和推理的高计算成本与能源消耗 [20] - 公平性:确保模型在不同群体中性能等效,避免加剧医疗不平等 [20] - 可靠性:系统可能因架构缺陷、智能体协作不力或研究问题定义不清而失败 [20] 未来展望 - 预计 Agentic AI 将从专门的单一智能体系统向通用的多智能体系统演进 [19] - 强调了适应性自主的重要性——Agentic AI 应能有效理解何时需要就模糊或高风险任务咨询人类专家,而非追求完全自主 [19] - 社区开发与产业驱动的系统各有优劣,未来的混合协作模式可能结合双方优势 [19] - 人类研究者在设计、实施和管理 Agentic AI 方面仍将扮演不可或缺的角色,确保其科学有效性、伦理合规和负责任部署 [19]
国产算力大涨,V4给英伟达新一轮DS冲击?
36氪· 2026-02-27 19:32
国产大模型市场表现与突破 - 根据OpenRouter数据,2月9日至15日期间,中国大模型的Token调用量达到4.12万亿,首次超过美国模型的2.94万亿,随后一周进一步增长至5.16万亿,三周内大涨127%,而美国模型则降至2.7万亿 [1] - 发布仅两周的MiniMax M2.5模型,以4.55万亿Token调用量拿下OpenRouter单月冠军,显示出强劲的短期爆发力 [1] - 在OpenRouter的LLM排行榜中,国产模型表现突出,MiniMax M2.5以5.02T tokens位居榜首,Kimi K2.5以4.18T tokens位列第二,DeepSeek V3.2以3T tokens位列第四 [2] - 国产大模型如字节的Seedance2.0已实现产业落地,其高级会员排队人数突破10万,等待时长达5-10小时,反映了C端算力需求的井喷和从技术到商业的闭环形成 [2] 国产算力产业链崛起 - 国内晶圆厂正加大投资以提升产能,例如晶合集成的355亿元四期项目启动,中芯国际整合中芯北方,华虹以82亿元收购华力微以实现全控 [3] - HW昇腾芯片路线图明确,昇腾950PR和950DT预计分别于2026年Q1和Q4推出,后续将推出支持8192张昇腾卡的Atlas 950 SuperPoD,其FP8算力高达8EFLOPS [3] - 国产算力生态形成闭环,DeepSeek V4“海狮轻型版”将早期访问权限独家授予HW等国内厂商,此前DeepSeek在昇腾平台完成迁移后推理速度提升超35倍,体现了模型与芯片的深度协同 [5] - HW云CodeArts代码智能体公测,降低了AI开发门槛,释放了海量长尾需求,进一步繁荣了昇腾生态 [7] - HW昇腾积极参与全球标准制定,HW与联想作为首批中国企业加入Linux Foundation旗下的AAIF,与OpenAI、谷歌、微软同台制定全球自主AI标准,为其芯片架构的全球渗透奠定基础 [7] 全球AI产业竞争格局变化 - 英伟达在发布2026财年四季度财报后股价大跌5.46%,单日市值蒸发超2500亿美元,尽管其营收达681亿美元,净利润达430亿美元,数据中心业务同比增长75%,下季度营收指引为780亿美元,均超预期 [7] - 英伟达增长面临挑战:财报前股价已上涨超14%导致预期透支;毛利率从75%降至71%低于预期;数据中心业务占比高达91%,结构单一;失去中国大陆增量市场;对台积电的不可撤销采购义务飙升至952亿美元,接近其全年经营现金流 [8] - 英伟达的垄断格局正被打破,AMD获得Meta大额订单,Meta也拥抱谷歌TPU,同时谷歌、微软、特斯拉、苹果等巨头加速自研芯片,HW昇腾也在快速追赶 [8] - 市场对英伟达的定价逻辑已从“无限高增长”转向对其增长可持续性的审慎审视 [8] AI产业底层投资逻辑与高景气赛道 - 高盛提出的“halo效应”成为AI产业链投资逻辑的解释,其核心在于人工智能时代的重资产和低淘汰率特性 [8] - “halo效应”由两大核心驱动:一是AI基建的强需求与缺芯、缺电、缺地的现实困境;二是AI应用从文字到多模态的快速进化,持续拉动产业链需求 [10] - 市场验证了该效应,有色资源板块(金银铜钨锡镍锂等)因是AI芯片、服务器、电力基建的核心原材料而价值攀升;AI电力板块(电力、电网、电源)作为算力的“能量源泉”表现亮眼;光通信、存储等核心环节也同步走高 [10] - 结合产业趋势,四大投资方向值得关注:AIDC云服务与大模型应用、国产算力的HW昇腾链、全球AI算力产业链核心环节的稀缺标的,以及AI基建“光电料”三角链 [10] - AI基建“光电料”三角链是当前最具景气度的细分赛道,包括:光通信(CPO、OCS、光纤等,为算力互联核心);AI电力(电力、电网、电源,为算力刚需);有色资源材料及AI电子元器件(金银铜钨锡磷钛镍锂等资源,以及CCL、覆铜板、半导体材料、MLCC等元器件) [10] - 美股市场也体现了相关逻辑,典型标的覆盖公用事业(如NEE, CEG)、废物处理(如WM, RSG)、铁路物流(如UNP, CP)、信号塔(如AMT, CCI)、材料(如FCX, LIN)、管道(如KMI, OKE)、国防工业(如RTX, CAT)等重资产、高壁垒行业 [12] 中国AI产业的综合优势与未来趋势 - 中国AI产业已形成“国产大模型+算力+中国电力”的立体闭环出口逻辑,这构成了其核心竞争优势 [3] - 中国拥有全球领先的电力基建和清洁能源体系,为算力消耗提供了稳定、充足、低成本的“能量底气” [4] - 国产大模型的技术突破为算力提供了落地场景,国产算力的崛起又反哺大模型迭代,三者形成正向循环,构建了难以复制的立体壁垒 [4] - 全球AI产业格局正在重构,在电力、算力、大模型的立体闭环支撑下,中国AI已成为全球产业的重要参与者和定义者 [12][13]
未知机构:国金计算机科技GLM5技术解析国产模型进入算力换效果阶段Token消耗-20260224
未知机构· 2026-02-24 12:25
纪要涉及的公司与行业 * **公司**:智谱AI(GLM模型开发者)[1] * **行业**:人工智能大模型、国产算力芯片生态[1][2] 核心观点与论据 * **模型性能大幅提升**:GLM-5总参数量翻倍至744B,激活参数为40B,相比前代GLM-4.5的355B(激活参数32B)实现大幅扩容[1] 在各项核心基准测试中平均提升约20%,综合实力比肩Claude Opus 4.5与GPT-5.2[1] * **Agentic能力跃升**:模型致力于推动AI从被动的代码生成向自主规划、迭代的“Agentic Engineering”转变[2] 在SWE-bench Verified测试中得分达到77.8%,BrowseComp得分75.9%[1] 在内部真实场景测试集CC-Bench-V2中展现了出色的端到端处理能力[2] * **进入“算力换效果”阶段**:引入“交替思考”模式,在每次回复和调用工具前进行深度推理,这会带来海量的长前缀预填充,从而导致算力需求的指数级提升[2] * **技术优化降低算力成本**:采用DSA稀疏注意力架构,在处理长序列时直接将GPU注意力算力成本降低了一半[1] 通过极致的W4A8量化策略,在单台节点即可媲美国际双GPU集群,并将长序列场景下的部署成本大幅削减50%[2] * **深度适配国产芯片生态**:模型技术优化与国产芯片生态深度适配[2] 其他重要内容 * **国产模型能力达到新阶段**:国产模型能力的下限从“抽卡”到“工业化可用”,达到了Coding、Agent稳定可用的要求[2] * **未来展望**:后续发展将受益于Token放量及出海[2]
用AI的这三年,想跟你分享这9条心得。
数字生命卡兹克· 2026-02-24 10:18
AI行业渗透现状与市场阶段 - 全球AI用户渗透率极低,约84%(约68亿人)从未使用过AI,仅16%使用过免费聊天机器人,0.3%(约2430万人)每月付费20美元使用AI,0.04%(约324万人)使用过如Claude Code等编程Agent产品 [3][4] - 行业认为AI远未进入主流,当前普及阶段类似2005年互联网(仅16%上网率),仍处于发展早期 [6][7][9] - 行业观点强调“未来已来,只是分布不均”,表明技术应用存在巨大地域和人群差距 [10][113] 顶级AI模型产品特点与选择建议 - GPT-5.2 Thinking被描述为全面的“全栈白领”,擅长处理多种工作任务 [21] - GPT-5.3 Codex被定位为强大的“干活码农”,核心优势在于代码与数据处理能力 [22] - Claude Opus 4.6被视为“牛逼的架构师”,擅长顶层规划与高质量内容生成 [23] - Gemini 3.1 Pro被比喻为“全知科学家”,在科研与前端展示方面能力突出 [24] - 建议用户根据需求选择单一顶级模型,若无法决定则推荐全能且稳定的ChatGPT [25][26] 提升AI应用效率与思维模式的方法 - 建议付费使用顶级AI模型(如每月20美元/约150人民币),认为其投资回报率极高,远胜免费普通模型 [13][15][20][30] - 倡导“每周自动化一个重复任务”,通过逐步将琐碎工作自动化来提升效率并深化AI理解 [31][33][36] - 需抛弃“搜索思维”,建立“实习生思维”,即向AI提供详尽、清晰的背景、需求与限制条件,以获取优质输出 [38][44][46][47] - 应培养“AI能帮我吗”的思维触发器,在做事前主动思考AI的辅助可能性,以形成习惯并提升效率 [57][58][62][63] AI赋能创造与个人发展 - AI的核心价值在于大幅降低创造门槛,使普通人无需专业技能即可开发应用、制作内容 [65][68][70] - 创造过程能提供强大正反馈和成就感,并倒逼学习更深入的AI应用技能 [71][73][78] - 需警惕AI过度正面反馈带来的“能力幻觉”,强调真实世界的用户反馈才是最终检验标准 [81][82][83] - 建议“不要等准备好了再开始”,立即行动、边用边学是适应快速变化AI领域的最佳策略 [84][90][92][93] AI时代的核心竞争壁垒 - 在AI能力趋同的背景下,个人的“品味与审美”即对内容、方案、创意的选择与判断能力,将成为关键护城河 [95] - 个人独特的经历、情感与感受是AI无法复制的,融入创作后可形成真正差异化优势 [98][99] - 需平衡技术追求与真实生活,将AI节省的时间用于维系现实人际关系,认为幸福源于真实世界的连接 [100][101]
智谱、MiniMax合计蒸发近千亿市值,原因为何?
第一财经资讯· 2026-02-23 17:21
市场表现与事件 - 2026年2月23日,港股大模型公司智谱(2513.HK)和MiniMax(0100.HK)股价大幅下挫,分别下跌22.76%和13.35%,与恒生指数及恒生科技指数的上涨行情形成反差 [1] - 自2月20日市值高点后,两家公司市值合计蒸发近千亿港元 [1] - 智谱股价从1月8日116.2港元的发行价最高涨至2月20日的725港元,累计涨幅高达524% [3] - MiniMax股价从1月9日165港元的发行价最高涨至2月20日的970港元,累计涨幅高达488% [3] - 智谱流通市值为1239亿港元,总市值为2497亿港元,市盈率(LYR)为-165.9 [1] - MiniMax流通市值为1954亿港元,总市值为2636亿港元,市盈率(LYR)为-73.0 [1] 公司运营与事件分析 - 智谱GLM-5模型发布后发生算力挤兑,官方在2月21日发布致歉信,承认在规则透明度、灰度节奏和用户升级机制上存在错误 [1] - 事件起因是GLM-5发布后流量超出预期,但公司扩容节奏未能跟上,被迫按顺序逐步开放模型 [2] - 此次事件暴露了模型厂商在技术发布节奏、商业化预期与运营保障能力之间的错位 [2] - 在GLM-5发布并获得开发者肯定后,智谱于2月12日宣布对GLM Coding Plan套餐涨价,整体涨幅自30%起,并取消了首购优惠 [2] - 行业观点认为,智谱的涨价是一个标志性转折点,模型能力越强导致计算资源(token)越稀缺、价格越贵,但公司的商业化运营团队并未完全准备好应对激增的流量 [2] 财务与经营状况 - 智谱过去三年经调整净亏损持续扩大,分别为0.97亿元、6.21亿元以及24.66亿元人民币 [3] - MiniMax在2022年至2025年前三季度累计亏损约为13.2亿美元(约合人民币92.9亿元),其中2025年前三季度亏损为5.12亿美元 [3] - 两家公司共同面临训练成本高昂、持续亏损、算力基础设施有待完善等问题 [3] 行业对比与趋势 - 智谱称GLM-5性能比肩Claude Opus 4.5,但行业认为Anthropic是全球商业化速度最快的大模型企业之一 [4] - Anthropic在商业化上扎根编程领域,其年度经常性收入(ARR)从2023年的1亿美元大幅增长至2026年2月的140亿美元,近期估值高达3800亿美元 [4] - 与Anthropic对比,国产大模型公司在商业化运营、算力设施建设等方面仍有待完善 [4] - 行业分析认为,2026年商业化将成为大模型公司的关键命题 [4] - 根据IDC 2025年数据,全球企业级AI采购中,仅17%以“评测分数”为核心依据,68%更关注场景适配性、服务稳定性与成本控制能力 [4] - 行业评判标准正在转变,模型性能不再是单一指标,“能用”是“好用”的前提,模型落地应用能力、稳定的算力供给和优质的开发者体验成为衡量企业综合实力与发展潜力的关键 [4][5]
DeepSeek V4基准测试泄露?消息疑似为假
新浪财经· 2026-02-16 16:48
核心观点 - 网络流传DeepSeek V4模型在多项基准测试中表现惊人,据称超越了Claude Opus 4.5和GPT-5.2等顶尖闭源模型,并可能以极低成本在近期发布,引发行业高度关注 [1] - 流传的基准测试数据被多方质疑为伪造,至少有两个基准测试的可信度不高,但这从侧面反映了市场对DeepSeek模型的高度期待 [2] 模型性能传闻 - 据泄露信息,DeepSeek V4在SWE-bench Verified上取得了83.7%的分数,超过了Claude Opus 4.5的80.9%和GPT-5.2的80% [1] - 传闻称该模型拥有100万+的上下文长度,并结合Engram记忆机制,实现了全仓库级推理能力 [1] - 模型据称在HumanEval、SWE_bench、上下文长度和成本等多个维度刷新成绩 [1] 发布与成本传闻 - 模型预计发布时间为2月17日(春节) [1] - 据称其成本比OpenAI的模型便宜20到40倍 [1] - 若传闻属实,该模型将可能改变行业游戏规则,成为首个能与顶尖闭源模型匹敌甚至超越的模型 [1] 数据真实性争议 - 流传的基准测试数据被怀疑是假的,例如在官方评分系统下,模型分数不可能达到99.4%,最高只能是99.2%或100% [2] - 研究机构Epoch AI确认,关于FrontierMath的数据是伪造的,因为仅有他们和OpenAI有权对该数据集进行评估 [2] - 至少有两个基准测试的数据被打假,证明这些流传图片的可信度不高 [2] 市场情绪与影响 - 即便数据被证实为伪造,这种夸大其词的泄露现象本身也被视为DeepSeek在市场上取得成功的标志,反映了其深得人心 [2] - 相关传闻在AI圈内引发震动,并在全网疯狂刷屏 [1]
智谱冲击AI的“大厂信仰”
36氪· 2026-02-13 20:24
GLM-5模型发布与市场反应 - GLM-5发布后,智谱连续两个交易日暴涨超20%,市值突破2000亿港元大关 [1] - 模型参数规模由上一代的355B扩展至744B,激活参数从32B提升至40B,预训练数据量从23T提升至28.5T [1] - 智谱证实此前在OpenRouter登顶热度榜首的神秘模型"Pony Alpha"即为GLM-5 [1] GLM-5的技术能力与定位 - 内部评估显示,GLM-5能够以极少人工干预,自主完成Agentic长程规划与执行、后端重构、深度调试等复杂系统工程任务 [1] - 官方称其在真实编程环境中的使用体感已逼近Claude Opus 4.5水平,意味着开源已追上闭源 [2] - 用户实测显示,其前端表现丝滑、细节丰富,Agent模式可以生成可运行的手机应用环境,完成复杂任务 [2] - 模型实现了训练范式创新,团队构建了"slime"异步强化学习基础设施,大幅提升了训练量,使后训练变成高频、细颗粒度迭代 [2] - 在Agent能力上实现开源SOTA,在BrowseComp、MCP-Atlas和-Bench等多个评测基准中取得开源第一 [2] 产品定价策略与比较 - 智谱对GLM Coding Plan套餐价格进行结构性调整,整体涨幅自30%起,取消首购优惠,已订阅用户价格保持不变,生效时间为2026年2月12日 [2][3] - 涨价后,GLM-5输入单价最高6元/百万tokens,输出单价最高22元/百万tokens;GLM-5-Code输入单价最高8元/百万tokens,输出单价最高32元/百万tokens [3] - 相比之下,两个月前Anthropic发布的Claude Opus 4.5模型API价格大幅降价2/3,至每百万tokens 5美元/25美元 [4] - 智谱GLM-5的价格仅为Claude的1/5,在性能基本持平的背景下极具性价比 [4] 公司业务结构与战略转型 - 根据2025年H1财报,公司本地化部署业务占比达85%,是当前基本盘业务,毛利率接近60% [5] - 数据与云端产品占比仅15%,毛利率不高,2025年上半年一度接近亏损 [5] - 本地化部署业务面临应收账款高企、回款难以及定制化需求导致天花板较低等问题 [5] - 公司已明确战略方向,希望将API业务收入占比从当前水平提升至50% [4] - 随着GLM-5的发布,公司主营业务有望从本地化部署加速转型为MaaS服务商,API放量有望带来MaaS业务量价齐升 [5] 独立大模型厂商的竞争与成本结构 - 智谱作为独立于大厂的AI模型公司,发布了领先行业的模型 [6] - 同样独立的MiniMax也发布了新一代文本模型M2.5,在编程能力方面于权威榜单表现超越Opus 4.6,达到行业最好水平 [6] - 独立大模型厂商存在的一个重要原因是算力成本可控 [6] - 根据智谱招股书,截至2025年6月30日,其算力服务费用支出11.45亿元,占研发开支的比重为71.8% [6] - 相比于其他大厂动辄千亿的投入,智谱成本较低,其通常采用租算力的模式减少资金压力 [6] - 与并行科技深度绑定,后者提供了超1.2万P的超算架构算力,支撑了GLM系列模型全流程,双方签订了总额13.9亿元的长期算力服务协议 [7] - 从推理侧看,独立大模型厂商通常依赖第三方云服务,可能带来运营成本额外增加 [7] - 有分析根据微软财报倒算出OpenAI在Azure上2025年第三季度的推理成本达36.5亿美元,而同期收入只有20.6亿美元 [7] - 全栈大厂可通过"内化"成本容忍推理侧亏损,而独立大模型厂则面临边际成本带来的商业化压力 [7]
GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文
36氪· 2026-02-12 18:40
模型性能突破 - GLM-5具备卓越的长任务处理与工程能力,能够连续运行代码超过24小时,期间稳定完成700次工具调用和800次上下文切换[2] - 模型在无并行、无参考代码、关闭网络搜索的严苛条件下,从零开始手写JavaScript代码,成功创建了一个功能完整的Game Boy Advance模拟器,该任务涉及处理500多条CPU指令集、内存分页、音频子系统和图形渲染时序等复杂工程[7] - 在长任务执行中展现出高度稳定性和可靠性,具体表现为:工具调用在语法、格式和准确度上从第1次到第700次无差异;即使经过800次上下文切换,仍能严格遵守元提示的规范和流程;能自主判断何时进行测试、记录信息或切换策略;每次上下文清空后,能准确从笔记和文件中恢复工作状态[7] 基准测试表现 - 在权威榜单Artificial Analysis的评测中,GLM-5达到了与Claude Opus 4.5比肩的水平[10] - 在业内主流基准测试中,GLM-5的编程能力实现了与Claude Opus 4.5对齐[12] - 在衡量模型经营能力的Vending Bench 2测试中,GLM-5取得了开源模型第一的成绩[18] 实际应用与开发潜力 - 模型能够从零生成复杂的3D游戏,例如3D版大富翁,并能根据更精细的提示实现如“龙虾版3D大富翁”对战等高级功能[22][24] - 已有用户利用GLM-5开发了学术版“抖音”应用,并已提交上架苹果App Store,另有10余款APP准备上架[24] - 模型能精准理解并实现复杂的物理规律描述和视觉效果需求,例如使用three.js创建具有多层玻璃壳和动态外观变化的十二面体[27] - 模型具备全栈开发能力,可以制作完整且有设计感的电商网站,以及手搓3D版可交互的《我的世界》[27] 行业影响与意义 - GLM-5标志着开源大模型完成了一次从“助手”到“独立工程师”的质变,能够接受目标后自主执行长任务,极大减少人工调试[29] - 其开源特性将原本属于闭源巨头的长任务和工程能力交到了所有开发者手中,可能对SaaS行业构成冲击,此前市场已因Claude Opus等闭源模型的长任务能力而出现恐慌,导致金融数据服务商FactSet盘中暴跌10%,以及S&P Global、穆迪等公司股价下跌[29] - 模型的出现可能重塑软件行业,引发投资者对年费软件模式的担忧,因为AI能够现场创建如CRM系统等复杂软件[29] 市场反响与公司动态 - GLM系列模型从4.5版本开始专注于AI编程,其“coding套餐”在国内外市场反响火爆[30] - GLM-5发布后,智谱公司采取了限售策略,导致外国网友出现“求”购状态[30] - 智谱公司大楼已成为一个打卡点,显示出产品的高关注度[30]