核心观点 - 大模型产业的定价逻辑正发生根本性转变,计量单位从传统互联网的“免费流量”转变为“Token消耗”,Token成为可计量、有成本的生产资料 [1][3][4] - 智谱GLM Coding Plan涨价(涨幅“至少30%”)是这一转变的关键信号,反映了模型厂商正将“算力稀缺”通过分层定价和订阅化产品转化为毛利与现金流 [1][2][4] - Token需求呈现结构性“通胀”,即单位用户和单位时间内的Token消耗量快速上升,这由应用从简单问答转向复杂任务、从单轮交互转向多轮Agent执行、以及推理强度上升等因素驱动 [1][5][6] - 行业短期关注提价与需求增长带来的边际改善,中期关注企业席位与订阅留存,长期则看好AI安全与治理工具带来的新增市场 [1][7] 行业定价逻辑的颠覆性变化 - 传统互联网软件依赖近乎零的边际成本,通过免费获取用户规模后变现,而大模型服务的每一次推理都需消耗GPU、显存、带宽与电力,具有真实的、可计量的成本 [3][4] - 行业计量单位从流量(DAU/时长)转向Token(推理消耗),Token在越来越多场景中成为用户完成生产任务的刚需“燃料” [3][4][6] - 云计算时代已教育市场接受“按量计费”,大模型厂商正借鉴此模式,将服务明确为资源和SLA的交付 [3] - 当需求增长导致算力资源紧张时(如智谱曾因用户增长进行“限量发售”),涨价成为比无差别限流更优的需求筛选与体验保障机制,并有助于模型厂商改善盈利模型 [4] 近期涨价事件与产业信号 - 智谱于2月12日宣布上调GLM Coding Plan订阅价格,涨幅“至少30%” [2] - 此次涨价并非孤立事件,同期海外云厂商也纷纷提价,例如Google Cloud在北美涨价幅度达100%,在欧洲与亚洲同步上调,AWS价格也上调约15% [2] - 综合来看,Token需求的“通胀”不仅利好云端算力提供商,也增强了模型厂商自身的定价权 [2] - 智谱的涨价行为发生在行业仍处“模型价格战”的背景下,更具标志性意义,表明头部厂商开始尝试扭转“规模越大亏损越多”的困境 [3][4] Token需求“通胀”的驱动因素 - 应用场景深化:用户使用模型从简单“问答”转向实际“干活”,如重构代码、改写文件、生成文档和跑测试等,编程场景的长上下文、多轮迭代、大量输出特征导致Token消耗快速增长 [5] - 交互模式演进:从“单轮”交互发展到“Agent多轮”协作,Agent会主动规划、检索、执行、反思,多次调用模型,使得Token消耗按步骤累加,智谱GLM-5与MiniMax-WP的M2.5模型均重点面向此类场景 [5] - 推理强度上升:用户为获得更高成功率与更少返工,倾向于进行更深度思考与更长链路推理,这显著提高了输出与中间过程的Token消耗,用户愿意“多烧Token换效率” [6] 产业链各环节的投资关注点 - 云厂商与算力基础设施:AI拉动的IT支出与基础设施投入仍处上行周期,云侧将受益于GPU算力、存储与网络I/O等“伴随型消耗”的持续增长 [7] - 大模型厂商:关键在于能否在编程、Agent、企业流程等高投资回报率场景中维持订阅留存与企业席位扩张,将“Token用量”稳定转化为“省人省时省返工”的交付价值,从而具备穿越开源与价格战周期的能力 [7] - 安全治理与运行时防护工具:随着企业将AI深度嵌入工作流,数据泄露、代理越权等风险将推动“AI安全平台/治理平台”成为刚需,长期看好“AI防火墙”相关的新增市场 [7]
国联民生证券:Token需求在“通胀” 短期观察大模型厂商提价与需求带来的边际改善