Claude Opus 4.6
搜索文档
Cursor自研新模型反超Opus 4.6,价格还“打一折”!网友实测:只有它写完应用能一次跑通
AI前线· 2026-03-20 16:01
Cursor公司发布Composer 2.0编程大模型 - 公司发布了第二代编程大模型Composer 2.0,并已在IDE中上线[2] 模型性能表现 - 在关键的编程基准测试Terminal-Bench 2.0上,Composer 2的性能反超了Claude的旗舰模型Opus 4.6[4] - 在衡量模型Debug能力的SWE-bench Multilingual测试中,Composer 2得分为73.7%,与Claude Opus 4.6的77.83%得分非常接近[13] - 公司自建了名为CursorBench的基准来评估智能体在真实任务中的执行水平,该基准曾使Claude Sonnet 4.5的得分从SWE-Bench的77.2骤降至37.9[14] - 根据公司提供的数据,Composer 2在CursorBench、Terminal-Bench 2.0和SWE-bench Multilingual上的得分分别为61.3、61.7和73.7,相比前代模型Composer 1.5(44.2, 47.9, 65.9)和Composer 1(38.0, 40.0, 56.9)有大幅提升[14] 定价与成本优势 - 新模型定价极具竞争力:Fast版本每百万输入token收费1.5美元,每百万输出token收费7.5美元,比上一代便宜约57%[9] - 普通版价格更低,为输入0.5美元/百万token,输出2.5美元/百万token[9] - 相比之下,Claude Opus 4.6的定价为输入5美元/百万token,输出25美元/百万token,Composer 2的普通版价格仅为Claude Opus的十分之一[9] 实际应用测试结果 - 开发者实测显示,在生成一个X克隆应用的任务中,Composer 2生成的应用可直接运行,而Claude Opus 4.6和GPT-5.4生成的版本均卡在CORS问题,需要额外调试[17] - 三者生成的代码结构和质量接近,但效率与成本差距显著:Composer 2用时5分钟,花费6.04美元;Claude Opus 4.6用时19分钟,花费10.43美元;GPT-5.4用时22分钟,花费14.15美元[17] 公司财务与运营状况 - 公司2025年销售额从一年前的1.5亿美元飙升至20亿美元(约合人民币138亿元)[21] - 公司员工数仅300多人[21] - 公司在去年11月完成一轮23亿美元的融资,投后估值约300亿美元(约合人民币2069亿元)[21] - 据2025年3月11日消息,公司正与投资者洽谈新一轮融资,投后估值可能达到500亿美元(约合人民币3448亿元),但谈判仍在进行中[21] 行业趋势与公司面临的挑战 - 软件开发正从“辅助写代码”向“智能体完成任务”切换,代码编辑器可能不再是唯一入口,这对以IDE为核心产品的公司构成根本性挑战[22][23] - 上游模型厂商(如Anthropic, OpenAI)正下场开发自己的IDE、CLI和智能体产品,可能直接拿走入口,使公司面临从“超级入口”滑落为“中间层”的风险[23] - 下游开发者开始直接使用Claude Code、Codex等CLI智能体完成任务,可能绕过公司的IDE产品[22][23] 公司的战略应对 - 首要战略是补足短板,自主研发编程大模型,减少对外部模型的依赖[24][26] - 战略重心从“文件中心”全面转向“任务中心”的智能体(Agent),上线云端多智能体协作功能,让多个Agent并行工作[25] - 继续深耕企业市场,利用大公司迁移慢、合同周期长、合规要求高的特点来巩固客户基础[26] - 降低对Anthropic和OpenAI的依赖,利用DeepSeek、Kimi、Qwen等开源模型进行二次训练,结合自有数据和强化学习,打造更便宜、更快的专用编码模型[26] - 公司的根本目标是,在代码编辑器可能失去中心地位的时代,重塑自身为一个拥有自有模型、系统和新型入口的AI编程平台[27]
Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了
量子位· 2026-03-20 11:52
文章核心观点 - Cursor公司发布其最新编程模型Composer 2,该模型在多项基准测试上的性能超越了Claude Opus 4.6,同时价格实现了大幅下降,即“脚踝斩”[1][3][4] - 公司能够在行业普遍涨价的背景下实现降价,核心在于引入了一种名为“自我总结”的新强化学习方法,该方法通过训练使模型具备主动总结长任务上下文的能力,从而在提升性能的同时显著降低了成本[6][21][22] 模型性能与定价 - **性能表现**:Composer 2在CursorBench、Terminal-Bench 2.0和SWE-bench Multilingual等所有衡量基准上均取得大幅提升[11] - 在Terminal-Bench 2.0上的水平已跃居GPT-5.4和Claude Opus 4.6之间[12] - 具体基准分数:CursorBench为61.3,Terminal-Bench 2.0为61.7,SWE-bench Multilingual为73.7[15] - **定价策略**:Composer 2的价格远低于竞争对手,实现了“脚踝斩”[16] - 标准版定价:输入价格为0.5美元/百万tokens(约3.5元人民币),输出价格为2.5美元/百万tokens(约17.2元人民币)[15] - 快速变体Composer 2 Fast定价:输入为1.5美元/百万tokens(约10.3元人民币),输出为7.5美元/百万tokens(约51.7元人民币)[19] - **模型迭代速度**:从Composer 1到Composer 2的进化速度不断加快,性能提升显著[14][15] 核心技术:自我总结强化学习 - **解决的核心问题**:解决AI编程助手在处理长链条、复杂任务时,因上下文窗口有限而容易“掉链子”或遗忘关键信息的问题[25][26][27] - **方法原理**:该方法不是推理技巧,而是通过强化学习训练出来的能力[22][34] - 模型在任务执行过程中,会主动暂停并生成“阶段总结”(即“做笔记”),将关键信息压缩后传递至后续步骤[23][31] - 在强化学习过程中,总结能力被计入奖励函数,使模型学会区分并保留关键信息[35] - **技术优势**:相比传统的上下文压缩方法(如摘要法或滑动窗口),Cursor的新方法更高效、更准确[28][29] - 在高难度软件工程任务上,传统摘要法需要数千tokens的提示词,压缩后平均仍需5000+ tokens[37] - Composer方法仅需一句简单提示词(如“Please summarize the conversation”),压缩后输出平均仅1000个tokens[38] - 效果对比:Composer的token用量仅为传统方法的1/5,且压缩带来的错误减少了约50%[39] - **实际效果验证**:模型成功解决了经典长链条难题——将Doom游戏移植到MIPS架构[43][44] - 经过170轮交互,模型将超过10万tokens的上下文总结压缩至1000个,并最终找到精确解法[45] 公司战略与行业背景 - **行业背景**:随着大模型(文中喻为“龙虾”)的爆火,全球大模型Token消耗量呈指数级增长,导致年初以来国内外云厂商和大模型公司集体涨价[6][9] - **公司定位与目标**:Cursor在此背景下,将发展重心明确转向“性价比”[9][10] - 公司CEO表示,Cursor既不是纯粹的应用程序开发商,也不是纯粹的模型提供商,具有双重身份[48] - **产品迭代节奏**:公司发展节奏很快,在发布Composer 2后,研究员已开始放出Composer 3的消息[47]
Microsoft's Troubled AI Problems Just Got Worse
247Wallst· 2026-03-18 23:39
微软AI业务现状与挑战 - 微软的AI产品Asus ProArt PX13被认为已落后于谷歌Gemini、OpenAI GPT-5.4和Anthropic Claude Opus 4.6 [2] - 公司正在重组整个AI运营部门,特别是负责旗舰Copilot AI产品不同版本的团队,以解决用户体验脱节和消费者混淆的问题 [2] - 重组导致部分关键AI高管被晋升,另一些则被降职 [2] 与OpenAI的合作关系恶化 - 微软对OpenAI的投资总价值估计为1350亿美元,但双方在原始协议条款上存在争议,OpenAI希望摆脱微软合同施加的部分限制 [5] - OpenAI与亚马逊达成一项价值500亿美元的合作,将在AWS上运行OpenAI的Frontier产品,这直接违反了微软声称的、要求OpenAI独家在Azure云平台上工作的协议 [6] - 这一争端可能导致微软对OpenAI和亚马逊提起诉讼,进一步加剧了双方关系的混乱 [7] 市场竞争地位与内部问题 - 行业专家认为,微软在AI领域已落后,并且可能无法缩小与竞争对手的差距 [4] - AI行业演变极快,领导地位可能在几周内根据最新产品和采用速度而确立,这加剧了微软的压力 [4] - 与OpenAI的纠纷以及Copilot的重组,是微软AI业务混乱的例证,这种混乱使这家科技巨头在人们眼中进一步落后于行业领导者 [7]
Microsoft’s Troubled AI Problems Just Got Worse
Yahoo Finance· 2026-03-18 23:39
微软AI业务重组与竞争态势 - 微软正在重组其旗舰Copilot AI产品的不同版本开发团队 此举旨在改变此前由不同团队分别负责消费者版和商业版所造成的用户体验脱节和消费者困惑的策略 [2] - 在此次重组中 部分关键AI高管获得晋升 而另一些则被降职 [2] 微软AI产品竞争力评估 - 行业普遍认为 微软的华硕ProArt PX13 AI产品已落后于谷歌的Gemini、OpenAI的GPT-5.4和Anthropic的Claude Opus 4.6 [2] - 数月来 行业专家认为微软处于落后地位 且可能无法缩小与竞争对手的差距 由于AI行业演变极快 领导地位可能在数周内根据最新产品和采用速度确立 [4] 微软与OpenAI的投资及合作关系 - 微软对当时AI领导者OpenAI的投资总价值估计为1350亿美元 但双方在原始交易条款上存在争议 OpenAI希望摆脱微软合同施加的部分约束 [5] - 微软与OpenAI的矛盾在昨日激化 亚马逊将在其AWS云平台上运行OpenAI的Frontier产品 微软声称其拥有法律协议 强制OpenAI独家在其Azure云平台上工作 [6] - OpenAI与亚马逊的合作涉及500亿美元的资金承诺 [6] - 据英国《金融时报》报道 亚马逊的计划可能导致微软对OpenAI和亚马逊提起诉讼 但报道也指出微软可能不会起诉 [7] - OpenAI方面则坚持其与亚马逊的交易并未允许对其无状态模型进行后门访问 [7]
梁文锋推迟V4,是为了根治龙虾的健忘症?
虎嗅APP· 2026-03-17 08:08
DeepSeek V4的发布策略与核心能力 - 面对行业在春节期间扎堆发布新版本,公司选择不急于发布半成品,而是追求产品成熟后再推出[4][5][6] - 公司CEO的决策依据在于团队稳定、技术底子厚,不会草率发布[7] - 外媒报道V4将是架构级重构,包含1万亿参数、百万上下文、原生多模态,并预计于4月份发布[7] - 此次迭代的核心是名为LTM的长期记忆系统,旨在从模型架构内部实现持久化记忆,让AI能跨对话和任务记住用户信息与偏好[8] - 公司意图通过架构层面的原生记忆解决行业现有方案的根本缺陷,而非依赖外部中间件[10][11] - 公司的产品哲学是追求发布即“王炸”,正如其R1产品曾凭借过硬实力获得成功[14][15] LTM技术路径与行业痛点 - 当前AI在替人干活时,对上下文的理解和记忆能力已成为决定其可用性的底线,而非加分项[17] - 现有主流记忆方案均为在模型外部运行的外挂系统或中间件,存在共同天花板[20] - 外部记忆方案导致记忆质量取决于工程水平,且需通过上下文窗口注入,会带来高昂的token成本,模型也无法在外部记忆上进行真正的“学习”[21] - 公司基于Engram论文的研究方向是将记忆能力直接嵌入Transformer架构本身,开辟专用的条件记忆空间[22] - Engram方案使用O(1)的哈希查找存取知识,调用时不占用上下文窗口容量,也不增加推理计算成本,且记忆空间容量可近乎无限扩展[22] - 该技术路径旨在跳过“外挂记忆”范式,直接进入“原生记忆”时代,解决现有AI“有手脚却没记事大脑”的问题[23] 对标产品OpenClaw的记忆系统缺陷 - OpenClaw的记忆系统存在三个结构性缺陷:压缩损耗、检索失效和记忆容量上限[24] - 压缩损耗指为腾出上下文空间而将旧对话压缩成摘要时,会丢失对话脉络、推理链条等关键信息,且不可逆[25][26][27] - 检索失效指依赖向量相似度检索无法理解条目间的逻辑关系,可能导致召回错误或遗漏关键信息[28] - 记忆容量存在硬性上限,核心记忆文件有字符数限制,日志记忆的检索质量则依赖模型自身判断,容易丢失重要信息[29][30] - 这些问题的根源在于有限的上下文窗口,导致记忆体验如同“抄了一堆笔记然后翻不到”[30] 上下文学习能力的行业现状与价值 - 腾讯CL-bench基准测试显示,所有前沿模型从上下文中“现学现用”的平均正确率仅为17.2%[33][34] - 表现最好的GPT-5.1正确率也只有23.7%,意味着AI有超过八成的概率未能真正学会所给材料[34] - 研究认为,当前AI与真正智能的鸿沟在于学习能力,而非知识储备量[34] - 如何记忆以及能否“用好上下文”被视为大模型迈向高价值应用的核心瓶颈,并可能成为2026年的核心主题[34] - 上下文学习与记忆的可靠性是实现模型自主学习的关键一步[34] DeepSeek面临的主要竞争短板 - **多模态能力**:公司目前仍是纯文本模型,缺乏通用的视觉、音频和视频理解能力[39][40] - 公司发布的OCR 2模型虽在文档解析基准上表现出色,但仅是“图像→文本”的单向转换,与通用多模态理解存在代际差距[41][42] - 竞争对手如字节的Seedance 2.0和GPT-5.4已进入“全模态”时代,证明了多模态的巨大潜力[43] - **智能体能力**:行业正迈向智能体时代,竞争对手如Kimi、ChatGPT、Claude均已推出能处理复杂任务、调度多智能体的功能[46] - **AI编程能力**:在SWE-bench Verified基准上,公司V3.2得分73.1%,低于Claude Opus 4.6的80.8%和GPT-5.3 Codex的约80%[48] - 在更难的SWE-bench Pro基准上,V3.2得分40.9%,远低于GPT-5.4的57.7%[49] - 行业已从“氛围编程”进化到“智能体工程”,要求AI能独立完成工程级任务[49] - **AI搜索能力**:公司的搜索能力是短板,且结果经常出现幻觉[51] - Vectara测试显示,R1的幻觉率高达14.3%,是V3的3.9%的近四倍[52] - 在学术引用检索测试中,其错误率高达91.43%,包括捏造论文标题、虚构DOI等[52] - 搜索短板源于缺乏自有搜索基础设施依赖第三方接口以及模型事实校验能力不足[54] - 在智能体时代,可靠的搜索是必选项而非加分项[55]
国产大模型周调用量再超美国
第一财经· 2026-03-16 18:19
全球AI大模型调用量格局变化 - 国产AI大模型在OpenRouter平台的周调用量已连续两周超过美国大模型产品 [5] - 3月9日当周,全球模型调用量排名前九名中,国产模型占据四席并包揽前三名,整体国产模型周调用量约4.69T,较上周的4.194T环比上涨11.82% [5][6] - 同期,美国AI大模型周调用量为3.294万亿Token,环比下滑9.33%,OpenAI系列模型未进入前十 [6] 领先的国产大模型及调用数据 - 周调用量排名第一的是MiniMax M2.5,调用量为1.75T [5] - 排名第二的是阶跃星辰模型Step 3.5 Flash,调用量为1.34T [5] - 排名第三的是DeepSeek V3.2,调用量为1.04T,Kimi K2.5位列第九 [5][6] 新兴模型与行业动态 - 神秘模型Hunter Alpha引发关注,是一款为Agent用途构建的1万亿参数、支持100万Token上下文的模型,擅长长期规划和复杂推理 [6] - Hunter Alpha于3月15日获得OpenRouter日榜第一,另一款匿名模型Healer Alpha也进入日榜前十,两款模型均被OpenClaw开发者公开推荐 [7] - 智谱公司于3月16日推出面向“龙虾”场景的闭源基座模型GLM-5-Turbo,是2025年以来其发布的首个闭源模型 [7] 国产模型增长的核心驱动力 - 国产模型调用量持续上升,主要驱动力是OpenClaw等智能体(Agent)场景对模型调用需求的激增,这类任务常消耗百万级Token [7] - 性价比是国产模型受海外开发者青睐的关键因素,例如MiniMax M2.5的输入价格为每百万Token 0.3美元,输出价格为1.1美元,远低于Claude Opus 4.6的5美元和25美元 [7] - 国产模型凭借开源策略在海外市场建立了口碑与影响力 [8] 行业面临的挑战与商业化压力 - 海外模型正加速“务实”商业化,例如Gemini关停低价旧版,Claude收紧峰值TPM(每分钟Token数)限制5倍以上 [8] - 行业面临性能、开源与商业化之间的平衡问题,阿里巴巴Qwen大模型技术负责人离职事件暴露出公司营收压力与开源之间的本质矛盾 [8] - MiniMax上市后首份财报显示,2025年营收约7904万美元,同比增长159%,但年内亏损同比增加302%至18.7亿美元 [8]
养不起、卸不掉、防不住的“龙虾”:AI狂热背后的算力无底洞与安全黑洞
机器人圈· 2026-03-16 09:41
OpenClaw AI智能体的市场热潮与成本分析 - 2026年初,OpenClaw AI智能体(戏称“龙虾”)迅速流行,从深圳腾讯大楼、北京百度科技园的千人排队部署,迅速席卷全网,地方政府投入数百万元至数千万元扶持OPC(一人公司),提供免费部署、算力券、Token补贴等政策[2] - 用户使用成本高昂:有科技公司产品经理因Token消耗远超预期紧急叫停,一周API账单超3000元;社交媒体上用户晒出账单,有人一周烧掉14亿Token,一个月花费超1万元;一名程序员使用海外大模型喂养,两天消耗近5000万Tokens,费用约1700元;上海一位特聘教授单天Token费用高达700多元[5][6][7] - 成本结构复杂:包括硬件(如M1 MacBook Air约1000-1400元)、云服务器年费(个人版30-130元,标准版100-300元,企业版数百至数千元)、大模型调用费(如国产Kimi K2.5输入0.289美元/百万Tokens,输出2.83美元/百万Tokens;海外Claude Opus 4.6输入2.55美元/百万Tokens,输出25.28美元/百万Tokens)以及隐性损耗(如安装试错、时间成本、“心跳机制”意外唤醒造成的无谓损耗)[6][7] OpenClaw AI智能体的技术模式与消耗特性 - 与ChatGPT等对话式AI的“问答”模式不同,OpenClaw采用“主动唤醒→检查→推理→执行→循环往复”的永动模式,这意味着算力消耗从“脉冲式”变为“稳定流”[7] - “心跳机制”和“记忆膨胀”问题导致消耗不可控:“心跳机制”会意外唤醒已终止的任务,例如一夜之间自动执行约25次请求,造成18.75美元损失;若不及时清理“记忆”,Token消耗会随运行时间持续走高;有网友遭遇程序循环,6小时烧掉9000万Token,账单超1100元[6][7] OpenClaw AI智能体面临的安全风险 - 国家互联网应急中心于3月10日发布风险提示,指出OpenClaw默认安全配置极为脆弱,攻击者可轻易获取系统完全控制权,窃取个人隐私数据、支付账户、API密钥等敏感信息[8] - 工信部网络安全威胁和漏洞信息共享平台数据显示,2026年1月至3月9日,共采集到OpenClaw漏洞82个,其中超危漏洞12个、高危漏洞21个;核心漏洞“ClawJacked”允许攻击者实现无交互远程接管,可对网关口令进行高速暴力破解[8] - 截至3月上旬,全球公网暴露的OpenClaw网关实例超27万个,其中国内暴露约9万个,安全风险广泛存在[8] OpenClaw AI智能体的部署、卸载与责任问题 - 卸载过程复杂且存在残留风险:官方卸载会清空所有Workspace文档;手动卸载后,API密钥可能仍储存在配置文件里,导致本地访问权限被读取,Gateway可能继续在后台运行,造成持续泄密风险[9] - 卸载服务已成为一门付费生意,标价199元、299元,反映出用户可能被“留后门”的吊诡现象[9] - 责任界定模糊:当AI智能体导致文件被删、数据泄露时,责任归属(大模型缺陷、平台审核疏漏、用户授权不当)在法律上异常复杂,类似于自动驾驶车祸追责的困境;律师指出,执行型智能体可能放大个人信息处理边界,带来过度收集、处理个人信息等隐私风险,叠加网络配置不当、恶意插件等因素,安全问题比传统软件更突出[10][11][12] OpenClaw在企业端商用落地的挑战 - 企业落地面临三道关卡:第一是安装关;第二是API配置关(企业不知如何选择性价比高的大模型和云厂商套餐);第三是业务场景切入关(不知用它来做什么)[13] - 成本高昂阻碍商用:一个小型企业每月Token成本约在五六万元左右,加上员工工资、固定设备,已高于许多初创公司的承受范围[13] - 技术专家指出,OpenClaw短期内真正赋能的是对自己工作流有完全控制权的个体和小团队;在大型组织中,主要难题在于权限障碍和合规障碍,而非技术障碍[13] 产业界的破局之道与未来展望 - 技术优化降低成本:国产大模型在“性价比”上展现优势,例如智谱AI的GLM-4.6模型通过算法优化,在同等任务下比上一代节省30%以上的Token消耗;快手的AutoThink技术能使思考过程的Token消耗减少40%;开发者通过缓存优化和“混合模型策略”形成“饲养指南”[14] - 云厂商推出安全解决方案:例如火山引擎通过平台沙箱隔离、供应链深度扫描、运行时实时防护进行全流程风险控制,并依托身份集成、权限管理限制数字员工运行范围[14] - 专家指出根本解决方案在于系统级重构:麒麟软件人工智能技术专家韩福海认为,当前问题本质是智能体与底层系统“供需错配”,需从平台与算力底座重构出发,通过分布式调度、异构算力融合、精细化权限治理、全链路行为审计等系统性手段,让算力成为即取即用的流式资源,让安全成为底层内置基因[15][16][19] - AI智能体的规模化必须是安全、可持续的规模化,产业需从野蛮生长走向健康规模化落地[16][19]
暴力上涨的token背后是裁员
小熊跑的快· 2026-03-15 21:14
AI模型周度使用量排名 - 根据OpenRouter平台数百万用户真实使用数据,截至2025年3月17日当周,模型调用量排名前三的分别是:MiniMax M2.5(1.82万亿tokens)、Step 3.5 Flash(1.3万亿tokens)、Gemini 3 Flash Preview与DeepSeek V3.2(均为1.01万亿tokens)[4] - 当周调用量排名第四至第八的模型分别为:Claude Sonnet 4.6(8750亿tokens)、Claude Opus 4.6(8040亿tokens)、Grok 4.1 Fast(5700亿tokens)、Gemini 2.5 Flash(5570亿tokens)[4] - 从周度使用量增长看,部分模型环比增速显著:Step 3.5 Flash增长193%,DeepSeek V3.2增长125%,Claude Sonnet 4.6增长130%,而MiniMax M2.5增长10%,Claude Opus 4.6增长15%,Gemini 2.5 Flash增长17%[4] 中美模型市场份额变化 - 在2025年3月2日至3月8日的完整周数据中,平台总调用量为7.82万亿tokens,其中中国模型调用量达4.19万亿tokens,占比53.6%,环比增长34.9%;美国模型调用量为3.63万亿tokens,占比46.4%,环比下降8.5%[5] - 数据显示中国模型市场份额首次持续领先美国模型,且差距在扩大[5] - 当周全球前五大模型排名为:MiniMax M2.5(中国,1.87万亿tokens,环比增长15%)、Gemini 3 Flash(美国,约1.0万亿tokens)、DeepSeek V3.2(中国,0.83万亿tokens,环比增长4%)、Claude Opus 4.6(美国,数据未完整披露)、Step 3.5 Flash(中国,0.75万亿tokens,环比增长69%)[5] 行业趋势与潜在影响 - 平台模型周度总调用量呈现显著增长趋势,从2024年7月21日的4.5万亿tokens,增长至2025年3月17日的18万亿tokens[2][3] - 在AI模型使用量激增的背景下,部分大型科技公司如Meta可能进行大规模裁员,规模或达员工总数的20%甚至更多,且微软、字节跳动等公司也可能面临类似情况[6]
Claude Opus 4.6与Sonnet 4.6上线百万上下文窗口;上海推出全国首个虚实融合具身智能训练场丨AIGC日报
创业邦· 2026-03-15 14:06
人工智能模型与定价更新 - 人工智能公司Anthropic宣布其Claude Opus 4.6和Sonnet 4.6模型现已以标准价格提供完整的100万令牌上下文窗口 [2] - 此次更新实行统一价格,Opus 4.6模型定价为每百万令牌输入5美元/输出25美元,Sonnet 4.6模型定价为每百万令牌输入3美元/输出15美元,且无需支付长上下文附加费 [2] 人工智能行业人才流动 - Thinking Machines Lab的创始成员Devendra Chaplot宣布加入埃隆·马斯克创立的AI初创公司xAI,将与团队共同研发超级智能 [2] 人工智能基础设施与场景建设 - 上海推出了全国首个虚实融合具身智能训练场,旨在加快智能机器人融入实体经济,该训练场已为上百台异构机器人提供数据采集和技术验证服务 [2] - 上海正会同本地龙头企业如上海电气、上汽集团以及市级养老院等,共同打造一批工业和康养等实际应用场景 [2] 人工智能应用与安全讨论 - 360集团创始人周鸿祎在谈及使用类似OpenClaw(“龙虾”)的AI助手时指出,赋予其过多权限存在安全风险,类比为将保险柜钥匙交给助理 [2] - 周鸿祎强调,此类AI助手自身可能存在幻觉或被欺骗的风险,且可能存在恶意制作的Skill(技能),其安全问题需要持续发现和解决,而非仅依靠将数据上传云端或使用国产数据库就能一劳永逸 [2]
Token出海专题报告:国产模型抢占市场,IDC需求迅速扩张
国信证券· 2026-03-14 21:09
报告行业投资评级 - 行业投资评级:优于大市(维持评级)[1] 报告的核心观点 - 全球大模型技术快速迭代,推动应用能力提升,行业进入以季度甚至月度为单位的高速竞速时代[2] - 国产大模型凭借显著的性价比优势,在全球AI应用热潮中快速抢占市场,API调用量占比已超50%[2] - AI应用商业化推动云市场增长,进而刺激对数据中心(IDC)的物理资源建设需求,国内数据中心市场空间快速增长[2] 根据相关目录分别进行总结 01 大模型快速迭代,推动应用能力提升 - 大模型在知识问答、数学、编程等多种任务上表现已超过人类水平,可用性及准确度快速提升[2][7] - 模型技术持续进步,主流架构转向MoE以提升能力并降低成本,多模态能力显著增强,思维链技术(如OpenAI o1、DeepSeek-R1)推动模型进入推理时代[7] - 全球大模型行业迭代速率加快,2025年以来告别以年为单位的代际演进,进入以季度甚至月度为周期的竞速时代[2][11] - 头部厂商模型更新频率大幅压缩,以Anthropic为例,2025年更新速度较2024年快了近50%,从季度更新向月度更新演进[11] - 中美前沿模型性能代差快速缩小,据斯坦福大学数据,在LMSYS聊天机器人竞技场中,中美最佳模型的差距从2024年1月的9.26%缩小至2025年2月的1.70%[18] - 中国在开源AI模型方面已领先全球,GLM-5成为开源SOTA模型,整体表现仅次于GPT-5.2、Claude Sonnet 4.6等世界顶尖模型[18] - 多模态大模型能力飞跃,OpenAI Sora 2可实现电影级视频生成与复杂物理效果模拟,字节跳动Seedance 2.0在视频生成可控性、音画同步及多镜头一致性上达到导演级控制精度[23][28] - 基础大模型性能持续突破,谷歌Gemini 3.1 Pro在12项测试中超越Gemini 3 Pro、Claude Opus 4.6、GPT-5.2等,成为全球模型第一[37] - Anthropic Claude Opus 4.6在多项企业基准测试中超越竞争对手,并首次拥有100万token上下文窗口[41] - OpenAI GPT-5.4是其首款原生支持计算机使用能力的通用模型,在OSWorld-Verified测试中达到75.0%的成功率,超越人类72.4%的平均表现[43] - 国产大模型能力迅速提升,月之暗面Kimi K2.5在Agent、代码、图像等任务上取得开源SOTA表现,并实现从单一Agent到Agent集群的进化[48] - MiniMax M2.5在编程、工具调用等生产力场景达到或刷新行业SOTA,其运行成本远低于海外头部模型,在每秒输出50个token的情况下,连续工作一小时仅需0.3美金[55] - 智谱GLM-5在Coding与Agent能力上取得开源SOTA表现,性能与Claude Opus 4.5和Gemini 3 Pro相当,并全面拥抱国产算力生态[62][68] 02 Token用量上涨,国内模型排名上升 - OpenClaw等智能体项目病毒式传播,拉动全球大模型token消耗量创新高,且增长斜率陡峭[2][77] - 国产模型凭借性价比优势快速抢占市场,截至2026年3月9日,OpenRouter平台调用量前十的模型中,Minimax M2.5、DeepSeek V3.2、KimiK2.5等国产模型API调用量占比已超50%,而在2025年12月7日,前十均为海外模型[2][94] - 2025年12月7日至2026年3月9日,OpenRouter周调用量从5.78T增长至14.8T,同比增长156%[94] - 国内模型运营实际成本远低于海外模型,以运行一轮Artificial Analysis测试为例,Minimax M2.5成本为125美元,而Claude Opus 4.6需4970美元,GPT5.2-Codex需3244美元[83] - 成本优势源于两方面:1)国内模型token价格便宜,Minimax M2.5输入/输出价格仅为Claude Opus的6%/5%;2)单次测试消耗token量少,Minimax M2.5为58M,是Claude Opus 4.6(160M)的36%[83] - 国产模型编程能力已接近海外头部模型,在Artificial Analysis和LMArena的评分中,GLM-5、KimiK2.5和MiniMax M2.5的编码能力与GPT-5.1(high)、Claude 4.5 Sonnet持平,排名紧随Claude4.6、GPT-5.4和Gemini 3.1 Pro系列之后[89] - AI应用从辅助工具向独立员工(Agent)演进,Anthropic发布的Claude Cowork及其职能插件能接管鼠标、键盘和文件系统,自主完成复杂工作流,对传统SaaS软件形成冲击[73] 03 AI应用推动云市场增长,IDC需求扩张 - 国产模型海外调用量激增,更多提升了对国产数据中心的需求,而非直接迁移至海外云[2][101] - 若将推理算力迁移至海外公有云,将面临更高成本,以A100为例,海外谷歌云租赁价格为39.01元/小时,高于国内阿里云的31.27元/小时,且北美GPU租金有望持续上行[101] - 全球智算中心电力需求快速增长,据头豹研究院数据,核心IT负载电力需求2023–2028年CAGR将超20%,中国预计在2026年以285TWh的用电量超越欧美,成为全球电力消耗增长主引擎[101] - 海外科技巨头资本开支大幅扩张,2025年甲骨文、微软、谷歌、Meta、亚马逊资本支出分别为500、1154、930、720、1250亿美元,同比分别增长136%、31%、77%、93%、51%[106] - 国内厂商资本开支亦快速增长,2025年Q1-Q3,百度、阿里、腾讯资本开支分别为101、948、596亿人民币,同比分别增长74%、133%、48%,其中阿里宣布三年内投入4800亿资本开支[106] - 当前国内主要互联网与云厂商在AI基础设施上的资本开支投入进度整体仍明显落后于海外,但海外真实调用量正持续转化为推理算力需求,模型商业化能力逐步被验证,有望推动国内资本开支持续提升[2][106] - AI工作负载正从训练转向推理,推理市场准入门槛较低,部署方式更灵活,随着AI应用商业化进入高速增长阶段,云服务成为主要承载平台,带来明显的IaaS需求增加[2][112] - 中国云计算市场受AI应用爆发推动保持高增长,2024年市场规模达8288亿元,同比增长34.4%,预计到2030年有望突破3万亿元[118] - 云计算规模增长直接刺激数据中心建设,预计2025年中国数据中心市场规模达3180亿元,同比增长15%,2026年有望达到3621亿元[118] - 报告梳理了AI产业链相关公司,涵盖IDC、算力租赁、AI芯片、服务器、液冷、光模块、交换机等多个环节[120]