Workflow
Token通胀
icon
搜索文档
“龙虾”深度:Token“通胀”谁受益?一“芯”二“模”三“云”
国联民生证券· 2026-04-10 21:00
报告行业投资评级 - 推荐 维持评级 [3] 报告的核心观点 - 以OpenClaw为代表的AI Agent(智能体)标志着AI从“对话工具”向“自主作业”的跨代飞跃,正开启人人可用的AI Agent时代 [1][12] - AI Agent的持续运行将驱动互联网和企业IT的计费逻辑从流量、时长竞争,转向以Token消耗、执行完成度、安全治理等为核心的新模式 [1][15] - “龙虾”(OpenClaw)爆火预示Agent时代Token需求将非线性增长,直接带来超预期的AI算力与大模型调用需求,并系统性重估芯片、模型、云平台三个层面 [1] - 投资应围绕“Agent渗透率提升—Token通胀—云与模型重定价”主线,短期关注云平台,中期关注模型厂商,长期看好国产算力芯片 [8][130] 根据相关目录分别进行总结 1 OpenClaw:开启人人可用的AI Agent时代 - OpenClaw(原名Clawdbot)作为24小时全天候个人AI助手,以其自动化逻辑与代码生成能力迅速出圈,标志着AI从“被动问答”向“自主作业”的跨代飞跃,正拉开Agent渗透工业化生产工作流的序幕 [12] - 它重塑了云端的竞争逻辑,迫使云厂商从算力基础设施方加速转型为智能体全栈底座服务商,未来的云将成为由无数Agent高效协作构成的自动化操作系统 [13] - 互联网交互入口可能从分散App收拢至Agent统一界面,用户行为从“信息检索”转向“意图达成”,商业逻辑从“时长收割”向“任务溢价”转型 [14] - 技术与商业收敛的核心是可控性与可结算性,计价方式将从“流量”转向“单位执行量计价、安全治理计价和资源供给计价” [15] - Agent时代的关键付费机制包括:可执行能力付费、资源使用付费、安全与治理付费、授权与访问付费、结果/转化付费 [16] 2 OpenClaw安装部署:从体验到深度定制 - OpenClaw的核心机制包括Workspace(工作台)和Skills(技能集),使其成为一个事件驱动型执行网络,支持通过自然语言对话自主生成可复用技能模块 [36] - 部署方式按技术复杂度分为五大类:云托管即用型、大厂云服务器镜像型、国产本地桌面客户端型、国产兼容框架型、原版自托管+灵活配置型,成本从免费到弹性不等,适用于从个人体验到专业开发者的不同人群 [38] 3 OpenClaw驱动的三大受益方向 3.1 CPU和国产芯片 - AI产业正从“单次对话大模型”向“全天候智能体”跨越,算力需求从“单次脉冲”变为“全天候常驻”,大幅推高芯片需求天花板 [42] - Agent系统本质是以CPU为核心的控制与编排中枢,其调度密集型任务(如网页抓取、状态持久化)激增,将驱动AI基建投资主线从“唯GPU论”向多核CPU、高带宽内存等全栈服务器组件扩散 [43] - 根据英特尔研究,Agent工作负载中CPU上的工具处理延迟占比最高达90.6%,CPU可能比GPU更早成为性能瓶颈 [44] - 基于IDC等机构预测进行测算,在保守/中性/乐观假设下,为满足Agent带来的Token消耗增长,长期全球可能需要新增约587万片、1174万片、1761万片CPU [47][49] - 在算力缺口与供应链自主可控趋势共振下,国产芯片厂商将直接受益,包括:寒武纪(AI加速卡)、海光信息(CPU与DCU)、云天励飞(推理芯片)、中国长城(服务器整机)、龙芯中科(端侧智能体)、天数智芯与壁仞科技(通用GPU)等 [52][53] 3.2 大模型 - OpenClaw在GitHub星标超13万个,官网访问量破200万人次,其流行直接导致API调用频次与Token吞吐的阶跃式抬升 [54] - 相比传统对话,面向复杂任务的Agent服务可能会消耗数十倍多的Token,因此“模型的单位成本×单位产出”成为规模化落地的关键 [56] - **MiniMax**:其M2.1模型因高性价比(定价约为Claude Sonnet的8%)、长文本能力强、推理与编程能力突出,被OpenClaw创始人推荐,更适合被高频工作流调用 [54][57]。其多模态能力支持“视觉执行的自动化” [59]。公司采用MoE架构实现“大参数量、小激活量”,在保证性能的同时显著降低推理成本 [91]。2026年2月,其年度经常性收入(ARR)已超1.5亿美元,核心模型单日Token消耗量达到2025年12月的6倍以上 [82] - **智谱AI**:具备全球领先的coding技术能力,其GLM-4.5模型在全球基准检验中排名第三、中国第一 [94]。公司通过MaaS平台构建增长飞轮,并与腾讯WorkBuddy等生态深度协同 [68]。2026年3月31日,其MaaS API平台实现ARR 17亿元 [82]。2026年2月,智谱上调GLM Coding Plan订阅价格至少30%,反映出模型层定价权提升 [115] - 国产大模型厂商通过推出“开箱即用”产品(如KimiClaw、AutoClaw、MaxClaw)降低部署门槛,抢占生态入口,并与硬件(如绿联NAS)深度绑定,构建数据飞轮和较高的用户迁移成本壁垒 [67][69][83][84] 3.3 云厂商 - 云厂商的商业逻辑已从“底层算力租赁”跃升为“Agent数字员工的工位提供商”,通过一键部署和价格补贴抢占应用入口,争夺模型分发权和后续扩容权 [1][103] - 供给端,云厂商(如腾讯云)推出预装镜像和拉新优惠政策(如“0元直领”),意在抢占Agent首次部署的入口,将用户锁定在自家生态内 [105] - 计费模式正从单纯的Token按量计费,转向“套餐资源包+部署费+模型调用”的复合模式。例如,腾讯云部署OpenClaw服务收费49元/次/月,联网搜索、长期记忆存储等另行计费 [106][114] - 云厂商作为“卖铲人”迎来三重价值重估:1) **高确定性**:带动边缘计算节点和轻量服务器需求,去化库存;2) **高弹性**:Agent任务使Token消耗呈数十倍增长,带动模型API计费收入指数级增长;3) **长期壁垒高**:通过提供企业级AI工作平台、安全治理等增值服务获取溢价 [107][109] - “开箱即用”产品(如小米Xiaomi miclaw、顺网科技方案)的繁荣,将产生的海量并发请求和存储需求反哺至底层公有云基础设施 [110][111] - Token需求“通胀”带动云与模型涨价趋势,例如Google Cloud在北美CDN价格从$0.04/GiB涨至$0.08/GiB,智谱也上调了Coding Plan价格,产业定价逻辑正从“卖流量”转向“卖Token燃料+卖成果” [115][118][120] - 云计算产业有望迎来收入与利润拐点,例如顺网科技股权激励计划中,2026年云业务收入目标值为3.2亿元;优刻得2025年全年毛利率达25.8%,连续五年提升并迈过盈利门槛 [125][126] 4 投资建议 - 建议重点关注一“芯”、二“模”、三“云”三条主线 [8][130] - **一“芯”**:国产AI算力芯片,如寒武纪、海光信息、云天励飞、壁仞科技、天数智芯等,长期受益于推理需求扩张和自主可控 [52][53][131] - **二“模”**:企业办公工作台与模型厂商,如MiniMax、智谱,中期受益于高频调用带来的流水放大和订阅收入增长 [8][131] - **三“云”**:AI云/推理平台,如金山云、优刻得、网宿科技等,短期商业模式清晰、落地快 [8][131] - 其他受益环节还包括:CPU(海光信息、龙芯中科等)、边缘网络与API治理(网宿科技、深信服等)、安全(安恒信息等)、IDC、本地执行节点(绿联科技、小米集团)等 [131]
2026年第12周计算机行业周报:从Token通胀看国产AI投资机会-20260328
长江证券· 2026-03-28 23:21
行业投资评级 - 投资评级为 **看好**,并维持此评级 [7] 报告核心观点 - 报告核心观点围绕 **“从Token通胀看国产AI投资机会”** 展开,认为在推理算力需求爆发与供给缺口双重因素下,Token价值有望回归其真实商业价值,国产AI产业链将因此受益 [2][6][44] - 报告建议关注四大投资方向:模型侧(Token/MaaS收入爆发引发重估)、国产算力、云+IDC,以及在税务、工业等高价值、高壁垒、高兑现场景中的应用 [2][6][44] 上周市场复盘 - **大盘表现**:上周大盘持续回调,上证综指周五跌破4000点关口,报收3957.05点,整体大幅回撤 **3.38%** [4][14] - **板块表现**:计算机板块整体大幅下跌 **4.79%**,在长江一级行业中排名第22位,两市成交额占比为 **6.64%** [2][4][14] - **热点概念**:IDC/算力租赁/云服务等算力基础设施概念表现活跃 [2][4][17] - **领涨个股**:上周涨幅居前的计算机板块个股包括铜牛信息(+25.23%)、东方国信(+18.84%)、杰创智能(+9.68%)等,主要集中在IDC、存储、云服务、算力租赁等概念 [17][18] 上周关键词:太空算力 - **蓝色起源入局**:蓝色起源于3月19日提交“日出计划”,计划部署高达 **51,600** 颗卫星的星座,用于在轨提供计算服务 [5][10][20] - **产业驱动与优势**:太空算力有望凭借稳定的太阳能供应降低计算成本,成为地面数据中心的重要补充,其技术架构、成本结构等维度具备颠覆性优势 [22][27] - **产业链支持**:英伟达发布了面向太空场景的专用计算模块(如Vera Rubin太空模块),新模块推理性能较此前送入太空的H100 GPU提升高达 **25** 倍 [24] - **投资机遇**:建议关注卫星制造商及发射服务提供商、耐空间环境的算力硬件供应商、太空算力运营商 [27] 上周关键词:数字人民币 - **运营机构扩容**:数字人民币业务运营机构有望扩容,**12** 家商业银行或入围,包括7家全国性股份行和5家城商行,若落地则运营机构将增至22家 [5][10][28][30] - **进入2.0时代**:自2026年1月1日起,数字人民币钱包余额按活期存款计息,从支付工具升级为“支付+储蓄”一体化产品,商业银行接入意愿提升 [32] - **驱动IT系统重构**:数字人民币纳入银行表内负债管理,将驱动银行在会计科目、流动性管理、风险管理等层面进行IT系统重构 [35] - **投资机遇**:建议关注数字人民币跨境结算系统、跨境支付方案、支付场景方案及支付终端供应商 [35] 重点推荐:国产AI与Token通胀 - **涨价事件**:2026年3月18日,阿里云宣布因全球AI需求爆发及供应链涨价,将于4月18日起上调AI算力及存储产品价格,部分服务涨幅为 **5%-34%**,CPFS(智算版)上涨 **30%** [6][36][37] - **Token需求激增**:Token需求指数级增长驱动“算力通胀”,3月16日当周全球模型Token调用量约 **19.6T**,环比上涨 **15.98%**,国产大模型调用量进入全球前十 [40] - **供需错配**:AI算力供给端面临HBM显存、先进制程GPU供应紧张及建设周期限制,无法匹配爆发式需求,供需错配凸显Token稀缺性,导致价格上涨 [41] - **价格变化示例**:以腾讯HY2.0 Instruct模型为例,其输入价格从调整前的 **0.0008元/千tokens** 涨至 **0.004505元/千tokens**,涨幅高达 **463.13%** [42] - **产业意义**:Token通胀标志着AI产业正从技术叙事迈向商业叙事,Token价格开始回归真实供需关系下的商业价值 [42][44]
阿里云宣布涨价,关注Token通胀背景下的AI产业投资机遇
长江证券· 2026-03-28 23:21
行业投资评级 - 投资评级为“看好”,并维持此评级 [7] 报告核心观点 - 核心事件为2026年3月18日阿里云宣布将于4月18日起上调AI算力及存储产品价格,原因是全球AI需求爆发和供应链涨价导致核心硬件采购成本显著上涨 [2][4] - 在推理算力需求持续爆发与算力供给存在缺口的双重因素下,Token(大语言模型处理信息的基本单位)的价值有望回归其真实商业价值,出现“Token通胀”现象 [2][5][10] - Token通胀现象说明AI产业正加速迈向商业化落地阶段,市场定价机制从补贴引流转向供需关系定价,Token开始取代模型能力等指标,反映产业从技术叙事迈向商业叙事 [10] - 在国产大模型技术持续进步的背景下,Token通胀或将持续惠及相关产业链 [2][5] 行业现状与数据分析 - **需求端**:近期OpenClaw等应用降低了Agent使用门槛,驱动推理算力需求大幅提升。根据OpenRouter数据,2026年3月16日当周,全球模型Token调用量约19.6T,较前一周的16.9T环比上涨15.98% [10] - **需求端**:国产大模型在全球调用量中表现突出,Step 3.5 Flash(free)、MiniMax M2.5、DeepSeek V3.2、MiMo-V2-Pro等进入全球大模型调用量前十,显示国产大模型推理算力需求持续大幅提升 [10] - **供给端**:2025年以来,全球AI算力基础设施面临产能瓶颈,受HBM显存和先进制程GPU供应紧张影响,服务器采购成本同比大幅上升。同时,算力基础设施建设存在周期,无法匹配爆发式增长的算力需求,导致供需错配 [10] 投资建议与关注方向 - **模型侧**:关注Token/MaaS(模型即服务)收入爆发可能引发的价值重估机会 [2][5] - **国产算力**:在需求迎来拐点的背景下,未来算力供应有望缓解并加速兑现 [2][5] - **云服务与IDC(互联网数据中心)**:作为算力基础设施的重要环节,值得关注 [2][5] - **应用侧**:建议在税务、工业等高价值、高壁垒、高商业兑现潜力的具体场景中寻找投资品种 [2][5]
云涨价背景下-如何看待AI-Infra的投资机会
2026-03-22 22:35
关键要点总结 涉及的行业与公司 * **行业**:人工智能(AI)行业,特别是大模型商业化、AI基础设施(AI Infra)、云计算、算力租赁、AIDC(AI数据中心)[1][2][6] * **公司**: * **大模型厂商**:智谱 AI、Kimi、MiniMax(月之暗面)、字节跳动、Anthropic、OpenAI、科大讯飞、腾讯(混元大模型)、百度[1][2][4][6] * **云厂商/算力服务商**:阿里云、腾讯云、百度智能云、AWS、Google、网宿科技、优刻得、金山云、青云科技、并行科技、首都在线[1][3][6] * **算力租赁/AIDC**:鸿博股份、中贝通信、捷荣技术、润泽科技、东方国信[1][6] * **软件公司**:金蝶国际、合合信息、博睿数据、海天瑞声[1][6][7] 核心观点与论据 AI商业化趋势与驱动力 * 2026年是AI商业化的关键年份,核心驱动力是**编程(Coding)、OpenCloud(开放云)和多模态技术**[1][2] * **编程领域**的ARR(年度经常性收入)实现高速增长[2] * **OpenCloud**在B端应用潜力巨大,通过与各行业结合推出产品,成为商业变现重要手段[1][2] * **多模态技术**是全年商业化重点,年初已有字节跳动、快手等公司推出产品[2] 算力需求爆发与结构变化 * Coding和OpenCloud的爆发式增长从两方面拉动算力需求:[2] * **直接增加大模型公司的推理算力需求**,导致高端、高效率的推理卡严重稀缺[2] * **推动云厂商智算需求增长**,因用户出于数据安全考虑选择在云平台部署OpenCloud[2] * 独立大模型公司(如Kimi、智谱AI、MiniMax)在发展初期侧重训练算力储备,**对推理需求激增准备不足,导致当前推理算力储备严重不足**[2] * 大型科技公司由于前期高投入,**训练和推理算力储备相对充足**[2] * 算力租赁市场的高端算力(如H卡或A卡)已出现**售罄**,未售罄资源价格持续上涨[3] 市场普遍涨价及其驱动因素 * 自2026年2月起,云计算和AI算力市场出现**普遍涨价趋势**,驱动因素有两点:[1][3] * **上游供应链成本传导**(存储、CPU等硬件价格上涨) * **AI应用需求爆发**,特别是对AI算力的需求拉动显著 * **云厂商涨价情况**: * 海外:Google和AWS已于2月对部分产品调价[3] * 国内:网宿科技和优刻得率先涨价[3] * 阿里云:平头哥“真武 81,810E”算力卡**最高涨幅达34%**,文件存储产品CPFS**上涨30%**[3] * 百度智能云:3月18日宣布对部分产品提价**5%至30%**,其中AI算力相关服务**最高涨幅达30%**[3] * **大模型服务涨价情况**: * 定价策略从去年的**降价竞争转向普遍涨价**,主因是AI算力(特别是推理)成本提升[4] * 智谱AI:2月12日推出GLM-5旗舰版,价格**上涨约50%**;3月16日,GLM-5 TURBO模型的API价格**再次上调20%**,**累计涨幅超70%-80%**[4] * 腾讯云:3月13日结束对GLM-5、MiniMax 2.5和Kimi 2.5的限时免费公测,转为正式收费,并大幅上调自有混元大模型价格,**部分计费项涨幅超400%**[4] AI对行业的替代效应与市场影响 * AI预计将替代金融、法律、医疗、税务等行业约**20%-30%的低端工作**[1][4] * 市场对AI替代软件工作的担忧,已导致**软件板块股价普遍承压下行**[4] * 当前市场因**无法清晰界定AI替代的边界**,导致对软件股的估值普遍悲观[4][5] * 随着产业发展,市场将逐渐看清替代的临界点,**软件板块的投资逻辑可能出现好转**[5] 其他重要内容 看好的投资方向与标的 * 在Token通胀背景下,主要看好两大方向:[1][6] 1. **大模型厂商**:直接受益于模型调用量增长和价格上调。关注**科大讯飞**、MiniMax相关机会,以及Anthropic、OpenAI、字节、月之暗面等公司的上市进程[6] 2. **AI Infra(人工智能基础设施)**,细分为四个方向:[6] * **算力租赁**:高端卡稀缺推升租赁价格,关注鸿博股份、中贝通信、捷荣技术[6] * **AIDC(AI数据中心)**:看好字节跳动产业链,关注东方国信、润泽科技[6] * **云计算**:云厂商通过产品调价或降低折扣直接受益,关注优刻得、青云科技、金山云、网宿科技、并行科技、首都在线、同有科技、深信服[6] * **AI Infra软件**:关注基础设施软件领域的博睿数据和数据服务领域的海天瑞声[6] * 部分因AI替代担忧而**深度回调**、但实际替代效应可能较弱的软件公司(如**金蝶国际、合合信息**),未来可能存在**逻辑反转和较大的弹性空间**[1][7]
2月井喷,中国AI调用量首超美国,四款大模型霸榜全球前五,国产算力需求正经历指数级增长
36氪· 2026-02-27 11:31
全球AI模型调用量格局剧变 - 2026年2月9日至15日当周,中国AI模型以4.12万亿Token的调用量首次超过美国模型的2.94万亿Token,实现历史性赶超[1][6][7] - 随后一周(2月16日至22日),中国模型调用量进一步冲高至5.16万亿Token,三周内大涨127%,而同期美国模型调用量则跌至2.7万亿Token[1][7] - 全球调用量排名前五的模型中,中国模型占据四席,显示增长动能来自厂商集群式崛起,而非单一爆款产品[1][7] 中国市场增长轨迹 - 全球大模型Token调用量在过去一年(2025年3月3日至9日至2026年2月中旬)经历了爆发式增长,平台前十大模型的周调用量从1.24万亿Token飙升至13.95万亿Token,增长超过10倍[6] - 2025年,美国模型是市场主要动力,其Token周调用量一度占据平台前十大模型总量的近七成,而中国模型占比不到两成[6] - 进入2026年,美国模型增速显露疲态,中国模型开启“狂飙”模式,2月第一周(2日至8日)调用量已跃升至2.27万亿Token[6] 领先中国模型厂商表现 - 2026年2月16日至22日周榜显示,排名前五的模型中有四款来自中国厂商:MiniMax的M2.5、月之暗面的Kimi K2.5、智谱的GLM-5以及DeepSeek的V3.2,这四款模型合计贡献了Top5总调用量的85.7%[10] - MiniMax的M2.5模型于2月13日发布,上线不足一周便登顶周调用量榜首,在2月9日至15日当周平台总调用量激增的3.21万亿Token中,仅M2.5就贡献了1.44万亿Token增量[10] - 月之暗面的Kimi K2.5模型凭借其多模态架构和强大的Agent并行处理能力(能调度多达100个“Agent分身”),调用量连续跳涨,发布后不到一个月的累计收入已超过其2025年全年总收入[13] - 智谱的GLM-5模型自2月12日发布后,凭借其200K超长上下文窗口和对长程Agent任务的优化,调用量在上线次周便增长至0.8万亿Token[13] 中国模型厂商的市场地位与生态 - 根据a16z与OpenRouter联合发布的报告,过去一年,DeepSeek全系列模型总Token调用量以14.37万亿位居全球第一,阿里千问全系列模型以5.59万亿位居全球第二[13] - 在中国大模型B端市场,2025年下半年,千问(Qwen)系列模型的日均Token调用量占比32.1%位列第一,相较上半年的17.7%几乎翻倍,领先于字节豆包(21.3%)和DeepSeek(18.4%)[14] - 产业形成“AI中国团”的宽广技术产业群落,有利于竞争创新和在中美AI竞争中形成集群优势,硅谷寻求融资的AI初创公司中,其路演核心模型高达80%使用中国的开源模型[15] 中国模型的核心成本优势 - 中国模型具备显著的成本优势,在模型处理输入信息(Input)环节,MiniMax M2.5与智谱GLM-5的价格均为0.3美元每百万Token,而海外对标产品Claude Opus4.6的价格为5美元/百万Token,是中国模型的约16.7倍[16] - 在模型生成内容(Output)环节,成本差异更为悬殊:MiniMax M2.5为1.1美元/百万Token,智谱GLM-5为2.55美元/百万Token,而Claude Opus4.6高达25美元/百万Token,分别是前两者的约22.7倍和9.8倍[16] - 成本优势首先源于算法架构创新,以“混合专家”(MoE)架构为代表的技术路线是大幅降低推理成本的核心原因之一,采用MoE架构可直接让推理时显存占用降低60%,推理吞吐量提升高达19倍[18] 成本优势的深层驱动与产业整合 - 除了算法革新,中国AI厂商通过“垂直整合”路径进一步压缩成本,即将上层的模型算法、中层的云计算基础设施和底层的AI芯片进行深度一体化协同设计与优化,以榨干每一分算力[19] - 以阿里巴巴的“通义-云-芯”体系为例,通过极致的算力调度算法实现对底层硬件资源的最高效利用,从而大幅降低了AI服务背后的基础设施成本[19] - 摩根大通预测,从2025年到2030年,中国Token消耗量的年复合增长率将达到惊人的330%,在短短5年间实现370倍的增长[19] Token性质与商业模式演变 - Token正从互联网时代的“流量”,转变为AI时代的“燃料”,其消耗量的指数级攀升源于用户对AI使用模式的根本性转变,即AI从“问答工具”进化为深度参与工作流的“生产力工具”[21] - 国联民生证券提出“Token通胀”概念,指单位时间内、单位用户的Token消耗结构性上升,归因于三大趋势:需求从“问答”转向“干活”、AI Agent技术的兴起普及、以及推理强度上升[21] - 英伟达CEO黄仁勋强调“计算即收入”、“推理即收入”,指出推理性能直接决定了客户的收入能力,而推理的核心正是高效地生成可被商业化的Token,“性能/瓦特”成为关键指标[22] 未来商业模式展望 - AI服务的商业模式正从过去单纯的“按量计费”,向“燃料+成果”的混合模式演进,一方面Token单价会随技术进步和规模效应下降,另一方面企业将更愿意为直接的“成果”付费,催生更多基于订阅制的商业模式[22] - 未来AI服务的定价将走向高度定制化和灵活化,一个涵盖计算消耗、调用频次、任务复杂度(如多步推理)等多维度的动态定价体系将成为主流[23]
中国AI调用量首超美国 四款大模型霸榜全球前五
每日经济新闻· 2026-02-26 19:44
全球AI模型调用量格局剧变 - 2026年2月9日至15日当周,中国AI模型以4.12万亿Token的调用量首次超越美国模型的2.94万亿Token,实现历史性赶超[1][7] - 随后一周(2月16日至22日),中国模型调用量进一步冲高至5.16万亿Token,三周内大涨127%,同期美国模型调用量则降至2.7万亿Token[1][7] - 在全球最大的AI模型API聚合平台OpenRouter上,全球大模型Token周调用量在不到一年内增长超过10倍,从2025年3月初的1.24万亿Token飙升至2026年2月中旬的13.95万亿Token[6] 中国AI厂商集群式崛起 - 2026年2月16日至22日当周,全球调用量排名前五的模型中,中国模型占据四席,分别为MiniMax的M2.5、月之暗面的Kimi K2.5、智谱的GLM-5以及DeepSeek的V3.2[1][10] - 这四款中国模型合计贡献了Top5总调用量的85.7%[10] - 中国模型的爆发式增长并非依赖单一产品,而是厂商集群式崛起的结果,形成了宽广的技术产业群落[1][7][15] 领先模型表现与市场动态 - MiniMax的M2.5模型于2026年2月13日发布,上线不足一周便登顶周调用量榜首,其在2月9日至15日当周贡献了平台总增量3.21万亿Token中的1.44万亿Token[10] - 月之暗面的Kimi K2.5模型发布后,其不到一个月的累计收入已超过2025年全年总收入,增长由全球付费用户及API调用量大涨推动[13] - 智谱的GLM-5模型自2月12日发布后,调用量在上线次周便增长至0.8万亿Token[13] - 根据a16z与OpenRouter的报告,过去一年DeepSeek全系列模型总Token调用量以14.37万亿位居全球第一,阿里千问全系列以5.59万亿位居第二[13] - 在中国大模型B端市场,2025年下半年千问系列模型的日均Token调用量占比为32.1%,相比上半年的17.7%几乎翻倍,领先于字节豆包(21.3%)和DeepSeek(18.4%)[14] 中国模型的核心竞争力:极致成本优势 - 中国模型在性能比肩国际顶尖模型的同时,具备极具竞争力的成本优势[15] - 在处理输入信息环节,MiniMax M2.5与智谱GLM-5的价格均为0.3美元/百万Token,而海外对标产品Claude Opus4.6的价格为5美元/百万Token,是中国模型的约16.7倍[15] - 在生成内容环节,成本差异更悬殊:MiniMax M2.5输出价格为1.1美元/百万Token,智谱GLM-5为2.55美元/百万Token,而Claude Opus4.6高达25美元/百万Token,分别是前两者的约22.7倍和9.8倍[16] 成本优势的技术根源 - 以“混合专家”架构为代表的技术路线是中国模型大幅降低推理成本的核心原因之一,DeepSeek、阿里巴巴通义千问3.5-Plus等模型已广泛采用此架构[18] - MoE架构通过“按需激活”专家网络,相较于传统稠密模型,可降低推理时显存占用60%,并将推理吞吐量提升高达19倍[18] - 中国AI厂商积极探索“垂直整合”路径,将模型算法、云计算基础设施和AI芯片进行一体化协同设计与优化,以极致算力调度实现最高效的硬件资源利用,进一步压缩成本[19] AI应用范式转变与Token价值重估 - AI角色正从“问答工具”进化为深度参与工作流的“生产力工具”,驱动Token消耗量指数级攀升[19] - “Token通胀”概念被提出,指单位时间内、单位用户的Token消耗结构性上升,归因于三大趋势:需求从“问答”转向“干活”、AI Agent技术普及、以及推理强度上升[20] - Token正从互联网时代的“流量”转变为AI时代执行生产任务必不可少的“燃料”[20] - 摩根大通预测,从2025年到2030年,中国Token消耗量的年复合增长率将达到330%,在5年间实现370倍的增长[19] 行业商业模式与未来展望 - AI服务的商业模式正从“按量计费”向“燃料+成果”的混合模式演进,企业将更愿意为直接的“成果”付费,催生更多基于订阅制的商业模式[21] - 未来AI服务定价将走向高度定制化和灵活化,计算消耗、调用频次、任务复杂度等多维度因素将构成动态定价体系[22] - 英伟达CEO强调“计算即收入”“推理即收入”,指出推理性能直接决定客户收入能力,而“性能/瓦特”成为衡量AI服务效率与收入能力的关键指标[21] - 硅谷寻求融资的AI初创公司中,其路演核心模型高达80%使用中国的开源模型,显示了中国模型在全球开发者中的广泛吸引力[15]
2月井喷!中国AI调用量首超美国 四款大模型霸榜全球前五 国产算力需求正经历指数级增长
每日经济新闻· 2026-02-26 19:40
全球AI模型调用量格局剧变 - 2026年2月9日至15日当周,中国AI模型以4.12万亿Token的调用量,首次超越同期美国模型的2.94万亿Token [1] - 次周(2月16日至22日),中国模型调用量进一步冲高至5.16万亿Token,三周内增长127%,同期美国模型调用量则降至2.7万亿Token [1][7] - 全球AI模型API调用量在过去一年内(2025年3月初至2026年2月中旬)经历了超过10倍的增长,从周调用量1.24万亿Token飙升至13.95万亿Token [6] 中国模型集群式崛起与市场主导 - 在2026年2月16日至22日的周榜单中,全球调用量排名前五的模型有四款来自中国,分别为MiniMax的M2.5、月之暗面的Kimi K2.5、智谱的GLM-5以及DeepSeek的V3.2 [10] - 这四款中国模型合计贡献了Top5总调用量的85.7% [10] - 中国模型的崛起并非依赖单一产品,而是厂商集群式发展的结果,在海外开发者主导的平台(美国用户占47.17%,中国用户仅占6.01%)上展现出全球吸引力 [1][3] 领先模型表现与市场格局 - **MiniMax M2.5**:于2026年2月13日发布,上线不足一周便登顶周调用量榜首,在2月9日至15日当周平台总增量3.21万亿Token中,其单一模型贡献了1.44万亿Token [10] - **月之暗面Kimi K2.5**:发布后调用量连续跳涨,其能调度多达100个Agent并行工作,将复杂任务处理效率提升3到10倍,发布后不到一个月的累计收入已超过其2025年全年总收入 [13] - **智谱GLM-5**:发布后用户规模高速增长,上线次周调用量增长至0.8万亿Token [13] - **市场集中度**:2025年下半年,在中国大模型B端市场,阿里千问系列模型的日均Token调用量占比达32.1%,相比上半年(17.7%)几乎翻倍,领先于字节豆包(21.3%)和DeepSeek(18.4%)[14] - **全球总量**:过去一年,DeepSeek全系列模型总Token调用量以14.37万亿位居全球第一,阿里千问以5.59万亿位居第二 [13] 核心竞争优势:极致的成本优势 - **输入成本**:中国头部模型如MiniMax M2.5和智谱GLM-5的输入价格均为0.3美元/百万Token,而美国主流模型Claude Opus 4.6的价格为5美元/百万Token,是前者的约16.7倍 [15] - **输出成本**:MiniMax M2.5的输出价格为1.1美元/百万Token,智谱GLM-5为2.55美元/百万Token,Claude Opus 4.6则高达25美元/百万Token,分别是前两者的约22.7倍和9.8倍 [16] - 中国模型在多项基准测试(如SWE-Bench Verified、BFCL Multi-Turn)中表现已比肩甚至超越国际顶尖模型,结合巨大成本优势,形成强大竞争力 [15][17] 技术架构创新驱动降本增效 - **混合专家模型架构**:以MoE架构为代表的技术路线是中国模型大幅降低推理成本的核心原因之一,DeepSeek、阿里通义千问等模型均已广泛采用 [18] - MoE架构通过“按需激活”专家网络,相较于传统稠密模型,可降低推理时60%的显存占用,并将推理吞吐量提升高达19倍 [18] - **垂直整合路径**:中国厂商积极探索将上层模型算法、中层云基础设施和底层AI芯片进行一体化协同优化,如阿里的“通义-云-芯”体系,通过极致算力调度进一步降低基础设施成本 [19] 行业趋势:Token从“流量”变为“燃料” - **需求质变**:AI正从“问答工具”进化为深度参与工作流的“生产力工具”,驱动单位用户Token消耗量结构性上升,即“Token通胀” [19][20] - **三大驱动力**:1) 用户需求从浅层问答转向深度“干活”(如重构代码、生成文档);2) AI Agent技术普及,多步骤调用累加Token消耗;3) 推理强度上升,更长链路的深度思考增加Token消耗 [20] - **商业模式演进**:AI服务从“按量计费”向“燃料+成果”混合模式演进,企业更愿为直接“成果”付费,催生订阅制等新模式,未来定价将向高度定制化、多维度的动态体系发展 [21][22] 市场增长预测与产业生态 - **增长预测**:摩根大通预测,从2025年到2030年,中国Token消耗量的年复合增长率将达到惊人的330%,在5年间实现370倍的增长 [19] - **产业生态**:形成“AI中国团”的宽广技术产业群落,多家头部企业并存的格局有利于竞争创新和人才生态建设,并在中美AI竞争中形成集群优势 [15] - **全球影响**:在硅谷寻求融资的AI初创公司中,其路演核心模型有高达80%使用中国的开源模型 [15]
2月井喷!中国AI调用量首超美国,四款大模型霸榜全球前五,国产算力需求正经历指数级增长
每日经济新闻· 2026-02-26 19:35
全球AI模型调用量格局剧变 - 2026年2月9日至15日当周,中国AI模型的Token调用量达到4.12万亿,首次超过同期美国模型的2.94万亿,实现历史性赶超[8][9] - 次周(2月16日至22日),中国模型调用量进一步冲高至5.16万亿Token,三周内增长127%,而同期美国模型调用量降至2.7万亿Token[2][9] - 全球最大的AI模型API聚合平台OpenRouter数据显示,其前十大模型的周调用量从2025年3月初的1.24万亿Token飙升至2026年2月中旬的13.95万亿Token,不到一年增长超过10倍[8] 中国模型集群式崛起与市场主导 - 在2026年2月16日至22日的周榜单中,全球调用量排名前五的模型中有四款来自中国,分别为MiniMax的M2.5、月之暗面的Kimi K2.5、智谱的GLM-5以及DeepSeek的V3.2,这四款模型合计贡献了Top5总调用量的85.7%[12] - 中国模型的增长动能并非依赖单一产品,而是厂商集群式崛起[2][9] - 在OpenRouter平台用户以海外开发者为主(美国占47.17%,中国仅占6.01%)的背景下,此数据客观反映了中国AI模型在全球范围内的真实吸引力[5] 领先模型表现与市场格局 - MiniMax的M2.5模型于2026年2月13日发布,上线不足一周便登顶周调用量榜首,在2月9日至15日当周平台总调用量激增的3.21万亿Token中,仅M2.5一款模型就贡献了1.44万亿Token增量[12] - 月之暗面的Kimi K2.5模型能调度多达100个“Agent分身”并行工作,将复杂任务处理效率提升3到10倍,发布后不到一个月的累计收入已超过其2025年全年总收入[15] - 根据a16z与OpenRouter的联合报告,过去一年DeepSeek全系列模型总Token调用量以14.37万亿位居全球第一,阿里千问全系列以5.59万亿位居第二[15] - 在中国大模型B端市场,2025年下半年千问(Qwen)系列模型的日均Token调用量占比为32.1%,位列第一,相比上半年(17.7%)几乎翻倍[16] 显著的成本竞争优势 - 中国模型具备极强的成本优势,以OpenRouter平台价格为例,在输入环节,MiniMax M2.5与智谱GLM-5的价格均为0.3美元/百万Token,而海外对标产品Claude Opus4.6为5美元/百万Token,是前者的约16.7倍[18] - 在输出环节,成本差异更为悬殊:MiniMax M2.5为1.1美元/百万Token,智谱GLM-5为2.55美元/百万Token,而Claude Opus4.6高达25美元/百万Token,分别是前两者的约22.7倍和9.8倍[18] - 中国模型在多个基准测试中表现比肩甚至超越国际顶尖模型,如MiniMax M2.5在SWE-Bench Verified测试中得分为0.802,与Claude Opus4.6的0.808相近[19] 技术架构创新驱动降本增效 - 以“混合专家”(MoE)架构为代表的技术路线是中国模型能够大幅降低推理成本的核心原因之一,DeepSeek、阿里巴巴的通义千问3.5-Plus等模型已广泛采用该架构[20] - MoE架构通过“按需激活”专家网络,相较于传统稠密模型,能极大减少计算量和硬件资源需求,数据显示采用MoE架构可直接让推理时显存占用降低60%,推理吞吐量提升高达19倍[20] - 中国AI厂商积极探索“垂直整合”路径,将模型算法、云计算基础设施和AI芯片进行深度一体化协同设计与优化,以极致算力调度算法实现硬件资源最高效利用,进一步降低基础设施成本[21] Token消耗增长驱动与商业模式演进 - 摩根大通预测,从2025年到2030年,中国Token消耗量的年复合增长率将达到惊人的330%,在5年间实现370倍的增长[21] - AI角色正从“问答工具”进化为“生产力工具”,用户核心需求从浅层“问答”转向深度“干活”,导致“Token通胀”,即单位用户Token消耗结构性上升[22] - AI Agent技术的兴起和普及,以及推理强度的上升,进一步放大了Token的消耗[22] - AI服务商业模式正从“按量计费”向“燃料+成果”混合模式演进,未来定价将走向高度定制化和灵活化,形成多维度、动态的定价体系[23][24] 产业生态与全球影响 - 产业市场形成由多家头部企业构成的“AI中国团”宽广技术产业群落,有利于竞争创新和人才生态建设,并在中美AI竞争中形成集群优势[17] - 知名风投机构a16z的合伙人观察到,在硅谷寻求融资的AI初创公司中,其路演核心模型高达80%使用中国的开源模型[17] - Token正从互联网“流量”转变为AI时代执行生产任务必不可少的“燃料”,推理性能直接决定客户的收入能力[23]
国联民生证券:Token需求在“通胀” 短期观察大模型厂商提价与需求带来的边际改善
智通财经· 2026-02-22 21:33
核心观点 - 大模型产业的定价逻辑正发生根本性转变,计量单位从传统互联网的“免费流量”转变为“Token消耗”,Token成为可计量、有成本的生产资料 [1][3][4] - 智谱GLM Coding Plan涨价(涨幅“至少30%”)是这一转变的关键信号,反映了模型厂商正将“算力稀缺”通过分层定价和订阅化产品转化为毛利与现金流 [1][2][4] - Token需求呈现结构性“通胀”,即单位用户和单位时间内的Token消耗量快速上升,这由应用从简单问答转向复杂任务、从单轮交互转向多轮Agent执行、以及推理强度上升等因素驱动 [1][5][6] - 行业短期关注提价与需求增长带来的边际改善,中期关注企业席位与订阅留存,长期则看好AI安全与治理工具带来的新增市场 [1][7] 行业定价逻辑的颠覆性变化 - 传统互联网软件依赖近乎零的边际成本,通过免费获取用户规模后变现,而大模型服务的每一次推理都需消耗GPU、显存、带宽与电力,具有真实的、可计量的成本 [3][4] - 行业计量单位从流量(DAU/时长)转向Token(推理消耗),Token在越来越多场景中成为用户完成生产任务的刚需“燃料” [3][4][6] - 云计算时代已教育市场接受“按量计费”,大模型厂商正借鉴此模式,将服务明确为资源和SLA的交付 [3] - 当需求增长导致算力资源紧张时(如智谱曾因用户增长进行“限量发售”),涨价成为比无差别限流更优的需求筛选与体验保障机制,并有助于模型厂商改善盈利模型 [4] 近期涨价事件与产业信号 - 智谱于2月12日宣布上调GLM Coding Plan订阅价格,涨幅“至少30%” [2] - 此次涨价并非孤立事件,同期海外云厂商也纷纷提价,例如Google Cloud在北美涨价幅度达100%,在欧洲与亚洲同步上调,AWS价格也上调约15% [2] - 综合来看,Token需求的“通胀”不仅利好云端算力提供商,也增强了模型厂商自身的定价权 [2] - 智谱的涨价行为发生在行业仍处“模型价格战”的背景下,更具标志性意义,表明头部厂商开始尝试扭转“规模越大亏损越多”的困境 [3][4] Token需求“通胀”的驱动因素 - **应用场景深化**:用户使用模型从简单“问答”转向实际“干活”,如重构代码、改写文件、生成文档和跑测试等,编程场景的长上下文、多轮迭代、大量输出特征导致Token消耗快速增长 [5] - **交互模式演进**:从“单轮”交互发展到“Agent多轮”协作,Agent会主动规划、检索、执行、反思,多次调用模型,使得Token消耗按步骤累加,智谱GLM-5与MiniMax-WP的M2.5模型均重点面向此类场景 [5] - **推理强度上升**:用户为获得更高成功率与更少返工,倾向于进行更深度思考与更长链路推理,这显著提高了输出与中间过程的Token消耗,用户愿意“多烧Token换效率” [6] 产业链各环节的投资关注点 - **云厂商与算力基础设施**:AI拉动的IT支出与基础设施投入仍处上行周期,云侧将受益于GPU算力、存储与网络I/O等“伴随型消耗”的持续增长 [7] - **大模型厂商**:关键在于能否在编程、Agent、企业流程等高投资回报率场景中维持订阅留存与企业席位扩张,将“Token用量”稳定转化为“省人省时省返工”的交付价值,从而具备穿越开源与价格战周期的能力 [7] - **安全治理与运行时防护工具**:随着企业将AI深度嵌入工作流,数据泄露、代理越权等风险将推动“AI安全平台/治理平台”成为刚需,长期看好“AI防火墙”相关的新增市场 [7]
黄仁勋开年定调:AI 真升级,靠工业化
36氪· 2026-01-06 09:51
文章核心观点 - AI行业的发展重心正从追求单点模型突破转向构建完整的工业化能力体系 英伟达CEO黄仁勋在CES上宣布计算行业每一层都需重写 强调AI的真正跃迁依赖于可复制、可部署、可验收且能规模化的工业化能力[1] - 英伟达通过发布完整的工业化体系 定义了AI竞争的新焦点 即从模型能力竞争转向工业化速度与体系的竞争[45] 应用架构变革 - AI应用构建方式发生根本转变 从“写软件”转变为“训练软件” 开发者角色从编程转向训练智能体理解如何做事[4] - 底层逻辑发生三大变化:从编程到训练、从CPU到GPU的加速计算、从调用单一模型到架构能调用多模型和工具的工作智能体[4] - 英伟达提出“AI蓝图”架构 这是一套可被复制和定制的通用方法 企业可基于此教AI专属技能 工程师可插入自有数据 使各行业能建立自主协作的AI[6][7][8][9] - AI应用的底座从软件架构转变为智能架构[10] 算力基建升级 - 决定AI能否广泛应用的关键是底层算力“发电厂” 英伟达发布Rubin AI平台作为核心引擎[11][12] - Rubin平台是一次全套计算方式的重做 包括六大芯片协同设计、物理结构彻底重构以及能效革命性提升 组装时间从2小时缩短至5分钟[13] - 推出Rubin旨在解决“Token通胀”带来的算力危机 模型规模年增10倍 推理Token生成量年增5倍 但Token价格年跌10倍[14] - Rubin平台相比前代Blackwell实现显著提升:训练10万亿参数模型所需系统仅为Blackwell的1/4 每瓦性能是Blackwell的10倍 Token生成成本是Blackwell的1/10[16] - 一个500亿美元、1吉瓦电力的数据中心使用Rubin可比使用Blackwell多产出10倍收入[16] - Rubin已全面投产 旨在为全行业提供标准化的算力底座[16] 物理AI与机器人工业化 - 机器人正成为AI工业化后第一批量产的实体产品 被归类为“Physical AI” 即能理解物理世界运作规律(如重力、摩擦)的AI[17][18][19] - 英伟达建立了完整的Physical AI训练体系 核心是使用“模拟计算机”在虚拟世界中反复演练 关键工具包括世界基础模型Cosmos和物理模拟平台Omniverse[22][23][24][30] - 自动驾驶AI系统Alpamayo是该方法论的验证 它是全球首个会推理的端到端自动驾驶系统 能解释行为原因以应对长尾场景[24][25] - Alpamayo的训练数据结合了人类驾驶里程、Cosmos生成的数十亿公里虚拟数据以及精细标注的边缘案例 并采用双堆栈安全设计[26] - 该系统计划于2026年Q1在梅赛德斯-奔驰CLA车型上路 且已开源[26] - 此工业化路径适用于各类机器人 英伟达展示的Groot人形机器人等均在Omniverse中训练 将部署于仓库、医院等多场景[27][28] 开源生态战略 - 英伟达通过开源模型、数据和工具链来降低AI门槛 旨在让每家公司都能构建自己的AI 其战略是做AI时代的“台积电” 专注于卖芯片和算力基础设施[31][34][40] - 开源对英伟达的好处包括:1) 扩大市场规模 激活需要自训练模型的成千上万家长尾企业需求[32] 2) 建立事实标准 通过开源Nemo工具链、Cosmos、Omniverse、Blueprint等 深度绑定其芯片生态[33][35][36] 3) 锁定生态 使合作伙伴如Palantir、西门子、Meta等形成依赖 增加切换成本[37][41] - 该战略对产业意味着:1) AI竞争从模型能力转向工业化能力(训练速度、部署成本、场景落地)[37][42] 2) 为创业公司创造机会 使其能基于开源模型和行业数据建立专属AI能力[38] 3) 促使云厂商在深度集成闭源模型与支持开源生态之间做出选择[39] - 英伟达的产业布局分为三层:开源模型与工具链降低门槛、Rubin芯片与算力基础设施锁定生态、Physical AI标准路径定义下一代产业[43][44]