Workflow
Token经济学
icon
搜索文档
AI时代的“新石油”?!Token为王,如何打赢“新大宗商品”争夺战?
证券时报· 2026-03-31 16:54
文章核心观点 - AI Agent时代的到来,特别是OpenClaw等应用的爆火,使得AI任务执行模式从人机对话升级为机器自循环,导致Token(词元)消耗量呈指数级增长 [3] - Token的角色已从模型训练的技术副产品,转变为可计量、可交易的战略资产,成为AI时代的“新石油”和“新集装箱”,正在重塑互联网大厂的底层商业与竞争逻辑 [3][4][5] - 所有企业都值得重新评估能否被“装在Token里”重构,这将催生新的产业巨头,而如何在这个“新大宗”全球贸易网络中掌握主导权,需要不同于互联网流量逻辑的新模式 [5] 新大宗商品:Token的定义与爆发 - Token是大语言模型处理信息的基本单位,可以是词、代码或图像/视频的像素区块,其生成过程直接调用数据中心GPU算力并消耗电力 [7] - 与Chatbot时代相比,Agent时代(如OpenClaw执行深度研究)的Token消耗量级跳涨,单次复杂任务可消耗百万级Token,而Chatbot单轮对话仅消耗约1000到3000个Token [8] - 行业需求曲线处于陡峭上升期,无问芯穹公司的Token消耗从1月开始每两周翻一番,至今已增长10倍;多Agent并行、长上下文推理等新场景将推动消耗量再上台阶 [8] - 英伟达提出“Token经济学”,认为推理已成为AI核心工作负载,Token是标准化、可计量、可交易的新大宗商品;国家数据局已将其官方翻译定为“词元” [8][9] Token出海:中国AI服务的全球竞争力 - Token具备全球流动性,中国AI模型通过API接口向全球提供推理服务,算力与电力实现“数字化出口”,例如美国程序员调用中国模型DeepSeek的API [12] - 根据OpenRouter数据,上周全球模型调用量排名中,国产大模型调用量已连续一个月超过海外模型,MiniMax、月之暗面等排名靠前 [12] - MiniMax去年收入7903万美元,其中超过70%来自国际市场;Kimi等多平台也证实其API海外调用量今年以来快速增长 [14] - 中国凭借电力与算力成本优势,国产AI模型综合推理成本仅为海外的1/10至1/6,形成了价格优势和全球市场定价权 [15] - Token出海被视为继“中国制造”之后的下一个出口引擎,是“算电协同”在产业层面的落地,可能缩窄中美服务贸易差额 [15][16] 产业影响与价值重估 - Token成为“新大宗商品”使得数据中心演变为“Token工厂”,消耗电力产出Token和智能体执行能力,带动了二级市场对电力板块的价值重估 [15] - 电力价值通过Token被放大:一度电直接出口价值约0.5元人民币;用于大模型推理可产生500万Token,按国内模型定价可售约10元,按OpenAI定价可达上百元 [15] - 几乎所有产业都值得用Token重构,将设计、咨询、教育等知识密集型服务变为可计量的智能服务,从而实现规模化,这将是诞生新垂直产业巨头的土壤 [16] 老玩家的新风口与算力军备竞赛 - 新玩家如智谱、MiniMax处于年度亏损状态,老玩家如腾讯、百度、阿里、字节则在AI基础设施和研发上持续加大资本开支 [17] - 从2025年财报看,阿里资本支出突破千亿元人民币,腾讯和百度在百亿元级别;大厂仍优先获取先进训练芯片和迭代模型,而非降低推理成本 [17] - 国际巨头算力投入更为庞大,微软、亚马逊、谷歌、Meta四家公司年度总资本支出预计从2024年的约2000亿美元飙升至2026年的5000亿美元以上 [19] - 高额投入导致科技巨头从轻资产模式转向类似公用事业的重资产模式,负债率急升,同时面临AI芯片快速迭代(约一年周期)带来的巨额折旧难题 [19] - 中国云厂商也进入重资产设备周期,阿里云、火山引擎的投入被类比为电信运营商在3G/4G网络周期内的资本开支竞赛 [19] 商业模式与定价体系的系统性转变 - 互联网流量逻辑的边际成本趋近于零,可走免费模式;但Token是智力产出,边际成本递增,依赖算力、芯片和电力,免费模式走不通,需转向按Token计费的健康模式 [23] - 为适配Token经济,阿里成立新事业群,建立以“创造Token、输送Token、应用Token”为核心的新组织;腾讯则策略性把握Token的流向入口,通过微信等生态引导消耗至腾讯云 [23] - 行业竞争逻辑从“烧钱换流量”和“参数竞赛”,转向构建“Token经济体系”和“按效计费”,要求企业在战略、组织和商业上进行系统性转变 [24] - 云厂商近期提价反映供需关系变化:3月,腾讯云、阿里云和百度智能云的AI算力产品在十天内涨价约30%,主要受供应链成本上涨驱动,而非单纯追求利润 [22] 企业策略与效率优化 - 迅策作为“Token第一股”,其业务本质是为Token调用加装“增效器”,通过垂类AI解决方案提升结果精度,避免推理失败造成的Token浪费,将Token消耗从“试错成本”转化为“价值投资” [24] - 美图公司关注在帮助用户完成任务的同时尽量减少Token消耗次数,并计划根据所交付的商业价值对不同Token进行差异化定价,实现更好的商业转化 [24] - 百度展望,未来用户可能无需关心底层消耗了多少Token,而是直接为AI产出的成果和价值付费,MaaS(模型即服务)将演进为提供端到端的AI能力 [25] - 企业面临战略选择:在算力布局上,需权衡是追求最先进芯片的性能,还是构建更具成本效益的混合算力架构;是走全栈自研的重资产模式,还是寻求生态协同 [28]
黄仁勋的直钩钓不了中小企业
创业邦· 2026-03-27 18:28
文章核心观点 - 智能体(Agent)在B端企业市场落地的核心矛盾是“智商、安全、成本”的不可能三角,当前行业竞争焦点已从单纯的技术能力比拼转向对“安全”定义权的争夺,安全成为获取企业付费门票的唯一通行证[5][6] - 不同技术厂商针对上述矛盾提出了截然不同的解决方案,但均未彻底解决不可能三角,只是将风险转移到了不同维度,预计未来市场将呈现“双轨制”格局,即面向中小企业的云端托管路线与面向精英企业的本地硬件隔离路线长期并存[10][13][14] 行业现状与核心挑战 - 智能体框架(如OpenClaw)面临落地困境:本地部署受限于消费级硬件(如Mac mini),只能运行7B、13B等小参数模型,导致处理复杂任务时“智商”不足;而全盘云端化则因数据安全和隐私泄露风险(如邮件被清空、Prompt注入攻击)让企业犹豫不决[5][7] - B端企业付费意愿明确,但底线是数据安全,数据被视为企业命脉,没有极致的安全保障,企业不敢将核心工作流托付给智能体[6] - 智能体在C端难以普及,原因在于多步推理和反复调用工具会产生恐怖的Token消耗,只有B端企业才能承担这种指数级爆发的算力成本[5][6] 主要厂商解决方案与策略分析 英伟达方案:硬件级“监狱式安全” - 在GTC 2026推出NemoClaw框架与DGX Station硬件组合,主打“数据物理隔离,绝对安全”的叙事,声称能在本地运行万亿参数大模型[7][8] - 其方案实质是“直钩钓鱼”:所谓本地运行万亿模型实为运行在NVFP4量化版(4-bit精度)上的阉割版,虽经硬件加速,但在长链条逻辑推理中会产生累积误差,导致Agent出现“幻觉漂移”和“降智”现象[8] - 方案成本高昂(六位数美元起步),且非开箱即用,需要企业投入大量工程进行全链路适配(如配置OpenShell沙箱、进行RAG对齐),相当于重新开发一套ERP系统,将90%的中小企业挡在门外[8][9] - 英伟达的商业模式是通过企业的安全焦虑,将开源智能体生态收编为自家高端硬件(DGX)和云端算力(A100租赁)的促销工具,实现“两头通吃”[9] 面壁智能方案:动态“安检式安全” - 采取中间路线,在执行链路中加入“隐私路由中间件”,根据数据敏感度分级处理:S1级普通信息直接上云,S2级敏感字段脱敏后上传,S3级极密数据强制留在本地由端侧小模型(如MiniCPM)处理[11] - 配套“双轨记忆”系统,云端存脱敏版,本地存完整版[11] - 该方案将安全风险转移为运维复杂度和系统脆弱性:动态分级判断机制存在“误判率”风险,可能导致核心数据被错误路由至低安全通道;长期运行中,“双轨记忆”的一致性维护困难,可能导致云端与本地记忆错位,复杂推理任务仍需回传云端处理[11] 钉钉(阿里)方案:云端托管式安全 - 推行“安全云端化”路线,将工作流命令行化(CLI化),企业数据托管在钉钉云端,依托阿里云十余年的企业级合规体系背书[12] - 该策略将安全风险与管理责任转移给平台方(钉钉/阿里云),由平台应对风险,对于缺乏自身部署和安全防护能力的中小企业而言,分摊下来的安全成本更低[12][13] 未来市场格局展望 - 市场将呈现“双轨制”割裂发展:“工作流云端化”策略主要面向广大的中小企业市场,中国有5300万家中小企业,贡献了超过60%的GDP,其核心工作流多为请假、报销、考勤等日常事务,钉钉等平台通过生态共生关系满足其需求,一旦普及将引爆真正的指数级Token消耗[13][14] - “硬件深井”策略则服务于精英企业,如精密制造、金融交易、基因分析等对试错零容忍、毛利率高的行业,它们愿意支付百万美元购买DGX Station作为“保险”,若英伟达能推动“硬件级物理隔离”成为行业合规标准,将形成垄断生意[14] - 从国情看,高昂的硬件与合规成本更适合欧美“门阀垄断”经济体,而中国及广大发展中国家市场更可能接受“分级路由”及“云端托管”模式,即“蚂蚁雄兵”式的广阔市场[15]
人民想念DeepSeek
腾讯研究院· 2026-03-27 16:13
Token成本现状与行业焦虑 - Token作为大模型处理信息的基本单位,其消耗量巨大且价格昂贵,已成为AI应用的核心成本问题[7] - 有OpenAI程序员一周消耗了2100亿Token,相当于33个维基百科的文本量,但如此巨大的消耗带来的实际效果存疑[8] - 即使是日均10美元(年费约25200元人民币)的Token使用成本,也远超中国主流消费级软件(如剪映高端会员年费约600元)的付费门槛,将过滤掉大量非付费用户[10][11] Token消耗的驱动与质疑 - 英伟达CEO黄仁勋积极倡导大量使用Token,甚至建议将其纳入薪酬激励,称若年薪50万美元的工程师未消耗掉25万美元的Token会“极度恐慌”[7][8] - 行业质疑这种“疯狂烧Token”运动的实际效果,认为其明确受益者是像英伟达这样的“Token制造机”供应商,而非终端用户[8] - 重度使用Token的投入产出比不明确,其倡导被指在制造“Token焦虑”和“AI焦虑”[8][35] Token成本构成与降价瓶颈 - Token成本本质上是算力成本,涉及研发、硬件、部署、能耗及运营等多方面[16] - 关键存储器件HBM内存价格疯涨成为Token降本的主要外部瓶颈:2026年第一季度DRAM价格环比上涨超50%,NAND价格最高环比涨幅达150%[17] - 存储原厂与头部客户的战略长约已签至5年,行业乐观预计存储价格2028年回落,悲观预计要到2030年,短期内Token降价缺乏关键杠杆[17] 潜在的降本路径与技术优化 - 模型能力的提升是降价的内在杠杆,“Densing Law”指出大模型能力密度约每3.5个月翻一倍,同等性能所需参数量每3.5个月减半[18] - 提升模型推理的MFU(模型浮点运算利用率)是重要降本方向,当前主流大模型推理MFU均值约30%,优化后可超50%,估计能节省50%的成本[19] - 推理优化技术(如MoE稀疏架构、KV缓存压缩)曾在2024年推动价格战,使DeepSeek-V2价格降至GPT-4-Turbo的百分之一[21] 当前市场对价格战的态度 - 相较于2024年由DeepSeek引发的激烈价格战(甚至出现“Token免费”现象),当前面对B端和C端Token需求同时爆发的市场却表现得出奇沉默[21] - 行业参与者认为,在模型特定能力成熟、拥有稳定用户来源后,为“小龙虾”类应用打价格战可能导致存量用户的年度经常性收入失血,增量却不明确,因此缺乏动力[22] - 尽管国产大模型API单价(如MiniMax-M2.7低至每百万Token 0.53美元)已显著低于北美模型,但面对Agent的巨量消耗仍显不足,且云厂商受硬件成本冲击正面临涨价压力[23][24] 硬件层面的成本应对方案 - 部分用户尝试通过本地部署(如基于Mac Mini)来应对Token消耗成本,但存在门槛高、开源模型能力不足等问题[26] - 有创业项目推出EdgeClaw等端侧AI硬件并附加安全故事,但在内存涨价和苹果Mac Mini超高性价比的竞争下挑战巨大[27][29] - 更底层的芯片创新出现,如Taalas团队的HC1芯片,通过将Llama 3.1 8B模型权重硬编码固化在硅片上,实现单芯片16960 Token/s的输出性能,彻底消除内存数据搬运,但缺点是专芯专用,无法更换模型[30] 核心矛盾与未来期待 - Token成本问题的核心矛盾在于:贵的并非单价,而是重度复杂任务对Token使用量的倍数放大效应[32] - 改变现状依赖于更便宜的Token定价或Token消耗的最小化,这需要模型优化与推理硬件创新的共同推动[35] - 行业在等待类似2024年DeepSeek引发的颠覆性价格战再次出现,以解决当前高昂的使用成本问题[36]
快手开始摸到“token经济学”的门道
新浪财经· 2026-03-27 13:16
资本市场对AI投入的情绪与快手的表现 - 过去一年,资本市场对互联网大厂的AI投入表现出明显的风险厌恶,市场对成本压力的反应快于对未来商业价值的定价[2] - 这种情绪导致即便业绩超预期的公司(如谷歌2025年Q4营收增长18%,净利润增长30%)也可能因暗示未来巨额AI投入而股价下跌(谷歌盘后跌近9%)[2] - 同样的资本情绪已蔓延至国内互联网行业,快手成为典型代表,其尽管收入利润双位数增长,但市场定价仍相当谨慎,市盈率处于较低水平[3][24] 快手2025年核心财务业绩 - 2025年第四季度:营收达396亿元人民币,同比增长11.82%;经调整净利润为55亿元人民币,同比增长16.2%[3][24] - 2025年全年:总收入为1428亿元人民币,同比增长12.5%;全年经调整净利润为206亿元人民币,同比增长16.5%,经调整净利润率提升至14.5%[3][24] - 公司展示了在持续加大AI投入的同时,仍能保持营收和利润双位数增长的清晰路径[3][24] AI战略驱动主营业务增长 - 公司自2023年初启动AI战略,从推荐和视频生成领域切入,并较早成立专项团队主攻视频生成技术[4][25] - 2024年6月推出AI视频生成模型“可灵”(Kling AI),采用与Sora同源的DiT架构[4][25] - 2025年4月将可灵AI升格为一级部门,使其从技术孵化器演变为驱动增长的核心引擎[4][25] - 管理层表示,2026年将继续围绕基础模型、Agent和算力底座加大投入,以在广告、电商、内容生态等场景释放更深层次价值[5][26] AI对线上营销服务(广告)的赋能 - 2025年Q4,线上销售服务收入为236亿元人民币,同比增长14.5%[8][29] - 公司通过端到端生成式推荐大模型和智能出价模型,将广告投放流程(素材生成、投放计划、出价优化)转变为全自动智能流程[8][29] - 生成式推荐大模型与智能出价模型的升级,直接带动国内线上营销服务收入提升约5%[8][29] AI对电商及其他服务的赋能 - 2025年Q4,含电商在内的“其他服务”板块营收为63亿元人民币,同比增速达28%,为三大业务中增速最快[9][30] - 同期电商GMV同比增长12.9%至5218亿元人民币[9][30] - 自2024年9月推出端到端生成式检索架构OneSearch,其能力覆盖电商搜索、内容推荐及人货匹配,实现了从“机械拆词”到“一步直达”的质变[9][30] 可灵(Kling AI)的技术演进与商业化 - 可灵坚持“统一原生多模态”进化路径,通过模型迭代集成文生视频、图生视频、视频编辑、音画同步等功能,并引入“智能分镜”系统[10][11][31][32] - 可灵有效降低高质量视频生产门槛,全球用户规模突破6000万,累计生成超6亿个视频,为超3万家企业客户和开发者提供API服务[11][32] - 可灵自诞生起锚定专业创作者(P端)与企业客户(B端),其P端付费订阅会员贡献了约70%的收入[13][34] - 截至2026年1月,可灵AI的年化收入运行率(ARR)已超过3亿美元(约合21亿元人民币)[13][34] 资本支出与效率优化 - 公司2026年整体资本支出预计达到260亿元人民币,比2025年增加约110亿元,主要用于可灵及其他大模型的算力建设、服务器采购及数据中心建设[14][35] - 公司通过技术优化提升效率,例如“模态非对称Token压缩框架”OmniSIFT可剔除65%的冗余Token,使推理时间减少42%,并显著降低GPU显存占用[16][37] - 公司竞争逻辑从拼模型参数转向追求单位Token消耗能转化出更多可交付的内容价值,即“结果确定性”[15][16][36][37] 公司AI价值的双重路径与闭环 - 公司价值体现于两条相互支撑的路线:一是主站业务中AI能力对内容生态、商业效率和经营效率的持续提升;二是可灵作为独立产品在全球AI视频赛道验证商业化能力[17][38] - 两条路线形成了“技术降本—场景复用—商业变现—反哺研发”的闭环[17][38] - 当行业许多公司仍停留在“烧钱”阶段时,公司已开始证明Token(计算单位)可以转化为收入、效率和利润的一部分[18][19][39][40]
人民想念DeepSeek
创业邦· 2026-03-26 08:55
文章核心观点 - 当前AI行业存在严重的“Token焦虑”,核心矛盾在于Token消耗量巨大且使用成本过高,而大规模消耗带来的实际效益存疑,主要受益者是英伟达等硬件和算力提供商[6][7] - 高昂的Token成本已成为阻碍AI Agent(文中称为“小龙虾”)大规模普及的关键因素,远超普通消费级软件的付费门槛,过滤掉了大量非付费用户[9][10] - 行业试图通过模型优化、硬件创新和价格战来降低成本,但面临存储硬件涨价、模型能力与成本平衡、以及商业考量等多重挑战,短期内难以解决价格问题[12][13][19][23] Token的成本与消耗问题 - Token消耗量已达到惊人级别,例如有OpenAI程序员一周消耗了2100亿Token,相当于33个维基百科的体量,而一个任务烧掉千万级Token已成为常态[6] - Token使用成本高昂,用户反馈测试一句“你好”就消耗80美元,优化后日均成本仍需10多美元(年费约25200元),远超剪映(年费约600元)等消费级软件[6][9] - 复杂任务(如生成视频、创作短剧)是Token消耗的主要场景,此外还需叠加生图模型API、搜索API等额外费用,进一步推高使用门槛[9][10] 行业降本面临的挑战与路径 - **存储硬件成本飙升**:HBM等关键存储器件价格疯涨,2026年Q1 DRAM价格环比上涨超50%,NAND价格环比最高涨幅达150%,且头部客户战略长约已签至5年,预计价格最早2028年才可能回落[12][13] - **模型效率优化空间**:通过提升模型能力密度(如Densing Law指出同等性能所需参数量每3.5个月减半)和推理MFU(模型浮点利用率),可降低成本。目前主流大模型推理MFU均值约30%,优化后可超50%,估计能省出50%的成本[13][14] - **价格战动力不足**:尽管2024年国内厂商曾爆发价格战(如DeepSeek-V2价格仅为GPT-4-Turbo的百分之一),但在当前B端和C端需求同时爆发、模型能力趋于稳定的背景下,厂商为避免存量用户ARR收入失血,缺乏再次发动价格战的动力[16][17][18] 硬件层面的成本解决方案与局限 - **本地部署尝试**:部分用户尝试基于Mac Mini等硬件进行本地模型部署以控制成本,但存在门槛高、开源模型能力不足等问题[21] - **专用芯片创新**:有创业团队(如Taalas)推出专芯专用方案,通过将模型权重硬编码固化在芯片上(如HC1芯片可运行Llama 3.1 8B模型,TPS达16960/s),彻底消除内存墙限制。但缺点是模型固定无法更改,想换模型需重新流片[22][23] - **边缘硬件挑战**:EdgeClaw等端侧AI硬件创业项目面临内存涨价环境、Mac Mini超高性价比的竞争,以及需逾越电商平台准系统产品(价格低于2000元)等难关[21][22] 市场现状与未来展望 - 根据Artificial Analysis数据,国产大模型API单价(如MiniMax-M2.7为每百万Token 0.53美元)已显著低于海外模型(如Claude Opus 4.6为10美元),但对于Agent的巨量消耗而言仍显不足[18][19] - 行业共识是抢用户是持久战,非一两次价格战能解决,且受硬件成本冲击,国内云厂商短期降价可能性低[19] - 根本问题在于重度任务对Token使用量的倍数放大效应,解决之道依赖于更便宜的Token定价或Token消耗最小化,这需要模型优化与硬件创新的共同推进[23][27]
两个“零估值”,一个新阿里
远川研究所· 2026-03-25 21:03
文章核心观点 - 阿里巴巴最新财报显示,AI已成为其绝对核心,公司正经历从电商到科技与AI驱动的估值逻辑重塑[2][3] - 市场目前对阿里巴巴的估值存在误区,仅认可其国内电商业务价值,而对即时零售和云与AI业务隐含了零估值[5] - 公司通过巨额资本开支构建了从芯片、云计算、大模型到应用的四层全栈AI能力,旨在抓住AI时代的历史性机遇,并设定了未来五年云与AI商业化年收入1000亿美元的激进目标[21][33][45] 投行对阿里估值的看法 - 摩根大通指出,阿里市值仅为其国内电商业务盈利预期的10倍市盈率,市场对计划冲刺万亿GMV的即时零售和五年后目标1000亿美元年营收的云与AI业务估值隐含为零[5] - 高盛将阿里最新财报视为“关键性的利润重置节点”,认为为AI的高投入影响了短期盈利,但这是行业普遍现象[8] - 摩根士丹利将拥有全栈AI能力的阿里巴巴列为“全球AI赢家”,认为其完整的AI技术栈构成了结构性竞争优势[22] 全球科技巨头的AI投入与困境 - 全球领先科技公司均因高昂的AI基础设施资本支出面临短期利润压力,例如微软单季资本开支激增66%导致股价较高点下跌25%,Alphabet资本支出计划同比近乎翻倍引发股价盘中闪崩7%[10][11] - 高昂的资本支出是抢夺大模型时代核心生产资料和规则制定权的入场券,当前全球算力处于高度紧缺状态,供需错配严重[12][17] - 算力需求因模型训练(如GPT-4参数量是GPT-3的10倍以上,Llama 3预训练数据量达15万亿个Token)和应用落地而指数级增长,但供给受限于芯片制造、先进封装、HBM内存产能及电网负荷等因素[14][16] 阿里巴巴的全栈AI战略布局 - 公司构建了四层垂直整合的AI能力:以自研芯片和亚太最大规模云计算为基础设施层;以Alibaba Token Hub为主线,由开源模型千问、MaaS业务和“to B + to C”应用组成模型及应用层[21] - 自研AI芯片(平头哥)已规模化量产,据摩根士丹利估算其单独上市估值在280亿至860亿美元之间,近期“真武”等算力卡产品价格上调5%-34%,显示了市场议价权[25] - 阿里云上季度营收同比增长36%,AI相关产品收入连续第十个季度实现三位数同比增长,公共云业务收入因采用量提升而增长[25] - 开源模型Qwen以每百万Tokens低至0.8元的价格抢占市场,在2024年下半年中国企业级大模型日均调用量中份额达32.1%,位列第一[27] - C端应用千问App月活用户已超过3亿,并与淘宝闪购、高德等生态业务打通;B端推出企业级AI原生工作平台“悟空”,内置在拥有2000万企业组织的钉钉中[27][28][51] 阿里的AI商业模式与目标 - 公司形成了“硬件压降成本-模型降维引流-应用消耗算力-云端收拢变现”的垂直整合商业模式[29] - 商业模式的核心转变是从卖算力向卖智能能力升级,以大模型驱动的MaaS业务为核心增长引擎,并围绕Token经济学构建新型基础设施公司[45] - 公司设定了未来五年云与AI商业化年收入达到1000亿美元的激进目标,这约等于阿里云未来五年外部收入年复合增长率需超过40%[33][34] 组织架构调整以适应AI发展 - 公司成立ATH事业群,整合了通义实验室、千问事业部、MaaS业务线、悟空事业部及AI创新事业部,由吴泳铭亲自坐镇,旨在应对Agentic时代模型与应用需高度协同的要求[35][36] - ATH的作用是打通“创造Token、输送Token、激活Token应用”的内部商业生态闭环,以加速数据飞轮和业务闭环的形成[42][43] - 组织变革旨在解决大公司内部研究院与业务部门割裂的问题,确保模型研发与前端应用紧密结合,从而在客户使用场景中形成数据闭环[40][41]
人民想念DeepSeek
虎嗅APP· 2026-03-25 17:57
Token成本现状与挑战 - Token消耗量巨大且价格昂贵,例如有OpenAI程序员一周消耗了2100亿Token,相当于33个维基百科的规模[7][8] - 用户进行复杂任务(如生成视频、创作短剧)时Token成本高昂,有用户反馈测试一句“你好”就消耗掉80美元[7][10] - 对比消费级软件,AI工具成本过高,例如有用户通过优化将日均Token费用从几百美元降至10多美元,年费达25200元,远高于剪映高端会员600元的年费[10][11] Token成本构成与降价瓶颈 - Token本质是算力成本,其总成本包括研发、硬件、部署、能耗及运营等,行业正形成以Token/W为核心的新成本衡量指标[15][16] - HBM等关键存储器件价格疯涨成为Token降本的外部障碍,2026年第一季度DRAM价格环比上涨超50%,NAND价格环比最高涨幅达150%[17] - 存储供应紧张,头部客户战略长约已签至5年,行业乐观预计存储价格2028年回落,悲观预计要到2030年[17] 通过技术优化降低成本的路径 - 模型能力提升是降价的关键杠杆,例如“Densing Law”指出大模型能力密度约每3.5个月翻一倍,同等性能所需参数量每3.5个月减半[19] - 提升硬件利用率(MFU)可压缩成本,目前主流大模型推理MFU均值在30%左右,优化后可超50%,估计能节省50%的成本[19] - 模型架构优化可直接降低Token成本,例如DeepSeek-V2通过MoE稀疏架构和MLA注意力机制将KV缓存压缩90%以上,实现了大幅降价[21] 行业价格战历史与当前态势 - 2024年国内大模型厂商曾爆发激烈价格战,DeepSeek-V2将价格降至GPT-4-Turbo的百分之一,引发阿里、字节等厂商跟进,一度出现“Token免费”现象[21] - 当前B端和C端需求同时爆发,但市场对再次发动价格战表现沉默,厂商认为在拥有稳定用户来源的情况下,为增量不确定的市场牺牲存量ARR收入并不划算[21][22] - 尽管国产模型API单价已具有优势,例如部分模型每百万Token价格低至0.53美元,但对于Agent的巨量消耗而言,成本仍然过高[22][23] 硬件层面的成本解决方案 - 部分用户尝试通过本地部署模型(如在Mac Mini上)来应对Token消耗成本,但面临硬件门槛高、开源模型能力不足及内存涨价等多重挑战[25] - 有创业公司推出EdgeClaw等端侧AI硬件并附加安全故事,但在内存涨价和Mac Mini等高性价比产品的竞争下,发展面临困难[25][26] - 芯片级创新出现,例如Taalas团队的HC1芯片将Llama 3.1 8B模型权重硬编码固化在硅片上,实现了16960 Token/s的高输出性能,但缺点是专芯专用,灵活性差[27] 核心矛盾与行业焦虑 - Token成本问题的核心在于重度任务对使用量的倍数放大,导致总费用高企,而投入的有效产出却不明确[29][32] - 行业领袖一方面呼吁大量使用Token并将其与绩效挂钩,另一方面又呼吁避免引发公众对AI的非理性恐慌,被指制造了“Token焦虑”和“AI焦虑”[8][32] - 市场期待通过更便宜的Token定价或消耗最小化来改变现状,这最终依赖于模型优化和推理硬件的创新[32]
Token→算力→数据中心→电力→储能全产业链解析
私募排排网· 2026-03-24 15:43
AI产业范式转移与Token经济学 - 2026年全球AI产业的核心命题是"Token经济学",Token正成为驱动硬科技产业链运转的"新石油"[2] - Token是大模型处理文本的最小语义单元,AI对话、智能体任务执行、AI生成内容均消耗Token[2] - 中国整体日均Token消耗量从2024年初的千亿级飙升至2026年初的百万亿级[3] - 2025年下半年以来,AI Agent(智能体)的爆发使得单个任务的Token消耗量呈几何级数增长[5] - 超过60%的企业已将AI应用纳入常态化运营,Token消耗正从"实验性支出"转变为"刚性成本"[5] - 2026年3月,头部云厂商相继上调AI算力服务价格,标志着Token正在经历"通胀"[8] Token驱动的底层产业链传导路径 - Token的爆发式需求正在重塑Token → 算力 → 数据中心 → 电力 → 储能这条底层产业链的价值逻辑[2] - AI训练集群的GPU数量正从千卡级向万卡级甚至十万卡级演进,一个十万卡集群的总功耗可达上百兆瓦[8] - 随着海外Token出海爆发,中国模型全球Token消耗量占比已达61%[14] Token产业链相关A股公司概览 - **Token生产端**:包括光环新网(今年来涨21.90%)等字节跳动、阿里、百度核心IDC供应商[9] - **Token流通端**:包括算力租赁公司(今年来涨127.51%)[9] - **Token传输大动脉**:包括光模块领先企业(今年来涨6.86%)等,受益于数据中心Token高速互联需求[9] - **Token应用端**:包括科大讯飞(今年来跌-7.64%)等提供垂直场景Token服务的公司[9] “算电协同”成为国家战略与投资主线 - “算电协同”在2026年首次被写入政府工作报告,已从地方试点上升为国家战略[10] - “算电协同”的本质是打破算力与电力行业的壁垒,实现双向互动与协同优化[14] - 在资本市场,电力、电网设备、水电、光伏等板块轮动上涨,成为A股表现有韧性的方向[10] 算电协同A股产业链公司分析 - **绿电运营与源网荷储**:协鑫能科(今年来涨90.95%),构建“绿电生产-储能调节-算力服务”全闭环[12] - **电网调度与智能电网**:国电南瑞(今年来涨20.51%),电网AI调度领先企业,市占率超75%[12] - **电力设备与特高压**:特变电工(今年来涨26.69%),特高压变压器全球龙头,市占率超55%[12] - **储能配套与电力保障**:包括电网侧储能龙头(今年来涨20.05%)等[12] 电力板块上涨的市场特征 - 电网设备领涨,景气度最为确定,为中国电力设备企业提供了出海机遇[16] - 水电、风电板块价值重估,稀缺性溢价凸显,西南水电的低成本、稳定、清洁特性成为吸引算力落地的核心竞争力[16] - 光伏板块底部反转,“十五五”规划鼓励绿电直连,光伏在算力中心“源网荷储”一体化项目中扮演重要角色[19] 主要算力枢纽区域绿电运营商 - **京津冀枢纽**:新天绿能(风电控股装机6,874.80兆瓦),建投能源(光伏装机容量68.65万千瓦)[18] - **长三角枢纽**:浙江新能(25全年水电发电量26.56亿千瓦时,光伏39.03亿千瓦时)[18] - **粤港澳大湾区和成渝枢纽**:粤电力A(25全年风电发电54.35亿千瓦时,光伏发电42.18亿千瓦时)[18] - **甘肃枢纽**:公司控股水电装机170.02万千瓦、风电110.35万千瓦、光伏73.6万千瓦[19] - **宁夏枢纽**:嘉泽新能(风电装机2041MW,已并网储能项目150MW/300MWh)[19] 太空光伏产业链机遇 - 马斯克转向中国采购光伏,并认为太阳能可以满足美国所有的电力需求,包括数据中心需求[20] - 按马斯克提出的每年100GW太空算力部署测算,远期市场空间有望达到5.6万亿元[20] - **太空光伏A股产业链**:包括串焊机市占率超60%的公司(今年来涨83.57%)、光伏导电银浆领先企业(今年来涨48.09%)、HJT整线设备领先企业(今年来涨39.18%)等[20][21] 储能成为AI时代的“电力银行” - 储能的度电成本正在成为Token定价的“汇率基准”[22] - 储能对算力中心的关键性体现在:保障供电连续性、平抑电价波动、作为绿电直连的必备配套[23][24][25] - 市场正在逐步认同“储能即Token”的逻辑,储能正从电网配套设备演变为AI基础设施的核心组件[25] 储能产业链A股相关公司 - 金开新能(今年来涨97.25%),截止24年储能及生物质发电项目并网容量127兆瓦[26] - 户储逆变器领先企业(今年来涨58.92%),3月排产创新高[26] - 全球储能电池绝对龙头(今年来涨9.46%),深度绑定算力中心[26] - 国内UPS电源龙头(今年来涨5.76%),推出适配AI智算中心的“供电+储能+散热”一体化解决方案[26]
策略周评20260322:GTC大会开幕,首提“Toke经济学”
东吴证券· 2026-03-23 08:55
AI产业趋势 - 英伟达在GTC 2026大会首提“Token经济学”,预测到2027年AI计算需求将达1万亿美元[4] - AI基础设施正向系统化、重资产化演进,具体路径包括芯片自研、超大规模集群和长期算力绑定[3] - 模型竞争从性能转向执行能力与定价权,例如智谱GLM-5-Turbo的API价格上调20%[4] - AI应用正同时向企业流程执行和消费级高频入口拓展,例如阿里推出企业级Agent平台“悟空”,百度将Agent能力嵌入智能家居[6] 市场与数据 - 美国主要科技股本周普跌,英伟达周跌幅为4.19%,年初至今跌幅为7.39%;微软周跌幅为3.46%,年初至今跌幅达20.86%[9] - Nebius与Meta签署了总额达270亿美元的长期算力协议[3] - 韩国研究证实“突触晶体管”可承受相当于太空20年剂量的辐射,预示AI在极端环境(如太空)中的运行可靠性[4] 技术与政策 - 模型技术沿“分层调度”与“执行强化”发展,例如OpenAI推出针对高频场景的GPT-5.4 mini与nano模型[5] - 国务院“人工智能+”行动意见为AI产业提供了到2027年、2030年、2035年的阶段性政策指引[6] - 英伟达Vera Rubin系统实现两年内Token生成速率提升350倍[4]
2026 英伟达 GTC 大会点评:LPU 融入推理体系,全栈设计能力塑造领先优势
国泰海通证券· 2026-03-21 08:45
报告投资评级 - 投资评级:增持 [1] - 目标价格:275美元 [8] 报告核心观点 - 英伟达2026 GTC大会聚焦Token需求爆发与新一代架构演进,通过Rubin和LPU体系提升算力效率,推动AI进入以推理与Agent为核心的新阶段 [2][8] - 公司凭借极致协同设计构建显著的Token效率与成本优势,在“Token经济”框架下成为最佳增长引擎,并因此上调了Blackwell与Rubin平台的收入指引 [8][11][14] - 新推出的LPU(Language Processing Unit)通过“PD分离架构”大幅提升推理吞吐效率,并与Rubin平台结合,驱动数据中心单瓦收入能力实现数量级跃升 [8][17] - 公司延续一年一迭代的硬件演进节奏,并通过系统级全栈设计能力(如Rubin大规模计算集群的模块化架构)和软件生态布局(如NemoClaw平台)构建持续领先优势 [8][23][30][33] 按报告目录总结 1. Token需求爆发叠加效率优势,驱动收入指引上调 - **Token需求进入爆发阶段**:经历三个阶段,2023年GPT带动初始需求,2024年推理模型使模型规模与上下文长度提升约10倍,Token消耗提升10倍,2025年Agent模型(如Claude Code)落地,使模型规模与上下文长度进一步提升至100倍,Token消耗同步放大至100倍 [8][11] - **收入指引显著上调**:基于Token需求爆发,英伟达将Blackwell与Rubin平台收入指引由2025-2026年的5000亿美元上调至2025-2027年的1万亿美元 [8][11] - **收入结构多元化**:公司约60%收入来自CSP(云服务提供商),其余40%来自主权AI、企业及新兴云需求,显示AI算力需求正向更广泛场景扩散 [11] - **构建极致Token效率优势**:在数据中心电力约束背景下,公司核心竞争力在于单位能耗下的Token输出能力。GB300 NVL72单位能耗Token输出较竞品提升约**50倍**,单位Token成本降低约**35倍**,显著优于摩尔定律约1.5倍的自然提升,该优势源于机架级系统设计与软硬件垂直整合 [8][14] 2. LPU驱动推理效率与收入能力提升,硬件架构提供底层支撑 - **LPU显著提升推理效率**:通过“GPU负责Prefill、LPU负责Decode”的PD分离架构,在高推理密度场景下,Token吞吐效率可提升至**35倍**,并在极高推理速度要求下保持稳定吞吐 [8][17] - **驱动收入能力跃迁**:1GW数据中心对应年收入,从Blackwell NVL72的约**300亿美元**,提升至Rubin NVL72的**1500亿美元**,而Rubin+LPX的搭配将进一步驱动收入提升至**3000亿美元** [8][17] - **底层硬件架构升级**:LPU单芯片带宽达**150TB/s**,SRAM容量提升至**500MB**。通过机柜级集成(单柜256颗芯片),可实现最高约**40PB/s**带宽与**128GB** SRAM容量,为高吞吐、低时延推理场景提供支撑 [8][19] 3. 系统架构持续演进,推动算力规模扩展与技术升级 - **Rubin大规模计算集群采用模块化架构**:包括16个Rubin NVL72计算单元、10个LPU机柜、10个CPO机柜、2个Vera CPU机柜及2个BlueField存储机架。LPU机柜占比较高,体现推理侧重要性提升;CPU首次实现独立成柜并单独销售,形成新业务增长点 [8][23][27] - **明确的未来迭代路线**: - **2026年**:推出Rubin机架。 - **2027年**:推出Rubin Ultra机架,通过铜互联实现NVL144级别扩展,并通过光互联进一步扩展至NVL576级别。 - **2028年**:推出Feynman机架,引入新CPU(Rosa)、正式导入CPO技术并采用定制化HBM,持续提升系统带宽与算力密度 [8][30] 4. 软件生态布局加速,构建AI操作系统平台 - **推出企业级AI Agent平台NemoClaw**:为可一键部署的完整开源软件栈,集成Nemotron模型与OpenShell运行时环境,使开发者能快速在本地或云端构建与运行AI智能体 [33] - **强化企业级部署能力与安全性**:平台集成Agent Toolkit与OpenShell运行时,提供策略引擎、安全护栏及隐私路由等功能,通过沙箱机制及本地与云端模型协同运行,解决企业应用中的隐私与合规问题,推动AI Agent向规模化生产力工具演进 [34][36] 5. 盈利预测与投资建议 - **核心逻辑**:AI投入仍在加速,预训练、推理、Agentic AI和Physical AI需求持续爆发。算力意味着Token,Token即意味着收入,英伟达凭借最低的Token成本和最快的迭代速度,成为Token经济学下的最佳增长引擎 [8][37] - **财务预测**: - 维持FY2027E-FY2029E营收预测为**3801亿**/**5238亿**/**6374亿**美元。 - 维持NON-GAAP净利润预测为**2236亿**/**3064亿**/**3710亿**美元 [8][37] - **估值**:报告给出了英伟达及可比公司的PE估值对比数据 [41]