Workflow
Token经济学
icon
搜索文档
OpenClaw放量万亿token,阿里云进击火山腹地
36氪· 2026-02-12 10:27
OpenClaw爆火与MaaS市场竞争格局 - 开源AI Agent项目OpenClaw(原名Clawdbot)迅速走红,其用户月访问量在两周内飙升至263万,环比增速高达10000%,单日Token调用量暴增数百倍,服务器多次宕机 [1] - 该应用的爆火将阿里、字节等云厂商在MaaS(模型即服务)订单上的竞争公开化,云厂商在48小时内争先宣布全面支持OpenClaw部署 [1] - 开发者蜂拥而至导致云厂商提供的免费Token迅速耗尽,有开发者表示一天开发可能消耗上亿Token [1] 中国MaaS市场现状与增长 - 根据IDC数据,2025年上半年中国MaaS市场规模同比增长421.2%,是云计算中增长最快的细分领域 [2] - 2023年全年中国MaaS市场规模约为2.25亿元 [5] - 火山引擎在2023年国内公有云大模型市场份额达到46%,其豆包大模型日均调用量在2024年12月突破50万亿Token [2][8] - 行业预测Agent应用将催生万亿级的Token经济,云厂商围绕MaaS订单的竞争是核心战场 [1][2] 主要云厂商的MaaS战略与表现 **火山引擎** - 成功与强大的C端产品(如豆包APP)协同,内部AI需求领先外部市场约“四五个月”,为MaaS服务提供了“实验场”和打磨基础 [10] - 通过聚焦AI和早发优势,在云业务上建立了“高并发、极致性价比”的心智,吸引开发者迁移 [12][14] - 预计2027年仅豆包大模型每日Token消耗量将超过100万亿,相比2024年增长至少100倍 [10] - 2025年机场广告预算预计是2025年的2-3倍,并将MaaS作为销售团队的最新首要KPI [2] **阿里云** - 公司CEO吴泳铭在内部明确MaaS是长期成功的首要任务,2026年关键词是“夺回失去的阵地” [1][15] - 提出“云+AI+芯片”(通义大模型+阿里云+平头哥芯片)的“通云哥”战略,旨在以软硬一体方式争夺市场 [16][17] - 目标是在2026年拿下中国AI云市场增量的80%,建立全栈能力以降低企业AI调用成本 [17] - 早期重心在模型开源,2023-2024年累计开源超400个模型及变体,以构建开发者生态 [7] **百度智能云** - 2024年8月,文心大模型的日均API调用量和处理Token数为国内最高,超6亿次,日均处理Token文本超1万亿 [4] - 2024年12月,文心大模型日均API调用次数达16.5亿次 [4] - 战略有所偏重,内部资源向“文心助手”等C端工具收缩,以保住搜索基本盘 [7] - 其机场广告词将改为强调“中国云厂商大模型市场项目数量&金额中标王”,隐含央国企客户是其优势领域 [2] 行业竞争焦点演变:从Token消耗量到Token效率 - 随着Agent自主性增强,Token消耗呈指数级增长,但消耗量不再是衡量模型能力的唯一标准 [3] - 行业开始关注“Token效率”,即在消耗海量Token时,云厂商能否提供最低推理延迟、最高API稳定性和最透明的成本结构 [3] - 月之暗面等公司已在尝试通过新架构(如线性注意力)提升Token效率,用更少Token完成更复杂任务 [3] - 对于企业客户,接口稳定性、并发上限与长期可用性比短期价格波动更重要 [14] 市场结构与统计盲区 - Token消耗量统计主要涵盖通过公共云MaaS平台API调用模型的消耗量 [4] - 企业使用AI的其他方式(如云上训练微调、本地部署、端侧推理)产生的庞大算力消耗未被纳入公开统计,存在数据盲区 [4] - IDC的MaaS市场统计仅包含云厂商对外提供的大模型API/托管/微调服务,不包含自有业务和算力租赁 [5] - 在国内市场,捆绑GPU的算力租赁(“卖水”生意)仍是市场主流 [5] 未来竞争关键与行业展望 - 决定Agent订单流向的因素,不仅包括Token价格,还包括模型能否成为开发者的首选工具 [21] - 云厂商需要构建从底层算力、模型算法到上层应用的全栈能力,并深入理解行业需求 [21] - 传统云业务“三大件”(计算、存储、网络)增长趋稳,MaaS虽当前占比小,但被视为未来增速最快的领域 [18] - 火山引擎需在芯片基建上补足,以应对Token效率竞争的新阶段 [20] - 阿里与百度均试图通过自研底层芯片来对冲高昂的算力成本 [7]
英伟达仍是王者,GB200贵一倍却暴省15倍,AMD输得彻底
36氪· 2026-01-04 19:13
AI推理游戏规则的转变 - 行业评估AI基础设施的关键指标正从单纯的算力硬指标转向“每一美元能输出多少智能”即单位成本的智能输出效率[1][4][20] - 顶级投资人指出当前竞争焦点不再是算力或GPU数量而是每一美元能买到的智能输出[4] - 随着混合专家模型和高强度推理工作负载成为主流行业已无法仅依赖芯片层面的性能提升平台级设计成为决定性因素[20][46] 模型架构演进:从稠密模型到混合专家模型 - 传统稠密模型在生成每个Token时需激活全部参数导致模型越大运行越慢、成本越高、内存需求增长[9] - 混合专家模型架构旨在释放更高水平智能每个Token只激活最相关的“专家”从而提升效率[11] - 全球TOP 10开源大语言模型全部是混合专家模型推理模型在推理阶段会先生成中间推理Token以提高准确性这导致推理Token数量往往远多于最终回复[11][14] 混合专家模型面临的核心挑战 - 混合专家模型的一个核心限制在于“通信瓶颈”当不同专家分布在多块GPU上时GPU间通信延迟会导致GPU空闲等待数据造成算力浪费[14] - 这些“空转时间”直接体现在服务提供商的成本底线上[17] - 评估AI基础设施“经济性”时需聚焦性能、能效和总体拥有成本三方面[17] 英伟达与AMD在稠密模型推理上的性能对比 - 以Llama 3.3 70B为基准在稠密模型推理中英伟达HGX B200方案在整个吞吐量与交互性区间内具备持续性能优势[21] - 在基线交互性水平下B200性能大约是AMD MI355X的1.8倍为交互式应用部署提供显著余量[21] - 当交互性提升至110 tokens/sec/user时B200吞吐量超过MI355X的6倍优势进一步放大[24] 英伟达与AMD在混合专家模型推理上的性能对比 - 在中等规模混合专家模型推理中对于gpt-oss-120B模型当目标是100 tokens/sec/user时B200比MI355X快约1.4倍当目标提高到250 tokens/sec/user时差距扩大到约3.5倍[30] - 通过软件优化双方平台性能均获提升英伟达单GPU峰值吞吐从约7,000 tokens/sec提升到超过14,000 AMD从约6,000提升到约8,500[30] - 在前沿混合专家模型推理中英伟达GB200 NVL72大幅领先在DeepSeek-R1测试中其性能是AMD MI350X吞吐量的28倍[1][18] GB200 NVL72的系统级优势与性能表现 - GB200 NVL72采用机柜级NVLink互联与软件调度能力彻底改变了成本结构[4] - 其让超过8块GPU的张量并行配置也能进入帕累托前沿达到单节点平台无法匹敌的性能[36] - 在25 tokens/sec/user交互性目标下GB200 NVL72单GPU性能大约是H200的10倍超过MI325X单GPU性能的16倍[36] - 当交互性目标提高到60 tokens/sec/user时GB200 NVL72相比H200带来超24倍的代际提升同时接近MI355X的11.5倍性能[37] 单位Token成本的经济性分析 - 尽管GB200 NVL72的单GPU小时价格几乎是竞争平台的2倍但其机架级能力推动了显著更优的单位经济性[20] - 在高交互性的推理工作负载中GB200 NVL72的单位Token成本最低可降至其他方案的约1/15[20] - 按CoreWeave目录价GB200 NVL72单GPU小时价格比H200贵1.67倍但由于其性能提升幅度估计达约20倍使其每美元性能优势达约12倍相对每Token成本仅为H200的1/12[41][42] - 与AMD MI355X相比按单GPU口径MI355X价格约为GB200 NVL72的一半但GB200 NVL72凭借从5.85倍到28倍不等的单GPU性能优势能提供最高15倍的每美元性能优势实现相对每Token成本仅为竞争对手的1/15[44][45] 行业未来趋势与竞争格局 - 前沿AI模型的未来将是更大、更复杂的混合专家模型来自OpenAI、Meta、Anthropic等公司的旗舰模型预计会继续沿此方向演进[46] - 随着模型更深地走向混合专家与推理架构平台级设计成为决定性因素包括互连与通信效率、多节点扩展特性、软件栈成熟度、生态支持与编排能力等[46] - 如果当前轨迹成立英伟达将维持关键的性能与经济性优势谷歌TPU等架构对非自家模型的适用性与性能表现仍不明确[46] - 性能差异能直接转化为可量化的商业结果例如当平台在某个交互性目标下提供28倍的单GPU吞吐提升时可在不线性扩大硬件规模的情况下解锁新产品档位及更复杂功能[47]
探迹科技与真爱美家并购案稳步推进,AI Agent商业化进程加速
中国基金报· 2025-12-31 12:12
真爱美家股价异动与并购事件 - 12月30日,真爱美家(003041.SZ)再获涨停,公司总市值攀升至74亿元 [1] - 股价变动源于市场对探迹科技拟入主真爱美家这一跨行业并购事件的积极预期 [1] - 29日盘后,公司发布控股股东部分股份解除质押公告,释放出并购事项正在有序推进的积极信号 [1] 全球AI Agent领域重大并购 - 同日,全球科技巨头Meta宣布将收购专注于构建通用型AI Agent的Manus [1] - Manus核心产品包括多语言智能对话引擎及垂直领域自动化决策工具,其技术架构的灵活性与跨领域适配能力被Meta视为填补产品生态空白的关键 [1] - 收购完成后,Manus将全面融入Meta生态 [1] - 行业分析指出,探迹收购真爱美家与Meta收购Manus存在共性,核心均指向推动AI Agent向实际应用场景落地渗透 [1] 探迹科技的技术实力与市场表现 - 探迹科技已构建覆盖AI Agent全链路的核心能力闭环,自研“太擎”企业级大模型智能体开发平台与“旷湖”数据云底座,形成完整技术栈 [2] - 探迹B2C智能体凭借2025年度超10万亿级Tokens消耗量,跻身“万亿Tokens俱乐部” [2] - 2025年,探迹B2C智能体日均Token消耗量超过500亿,以每月近20%增速增长,处于To B行业Top 10之列 [2] - 探迹B2C智能体已为超过10000家品牌客户提供服务,其中包括妙可蓝多、晨光、格力等头部品牌 [2] AI Agent行业趋势与前景 - 景林资产总经理高云程认为,2026年很可能成为人工智能体(AI Agent)真正普及的元年 [2] - 在Token经济学成为行业核心度量体系的背景下,AI Agent正从单一工具向产业基础设施演进 [3] - 未来AI Agent有望通过与现有工作流的深度融合、Agent间的智能互通,创造更高维度的商业价值 [3] - 两宗并购均印证了AI Agent已展现出广阔的商业化前景 [1]
如何正确理解Token经济学?
36氪· 2025-09-23 19:04
文章核心观点 - Token是AI时代度量模型工作量的基本单位,其调用量直接反映模型推理的计算量,是评估AI应用实际能力、成本、速度和可行性的关键指标 [1] - 从Token角度跟踪AI应用进展,意味着行业从关注技术概念转向量化分析实际生产要素,聚焦于“做了多少”、“效率多高”、“成本多少”以及“价值多大”等可度量、可商业化的层面 [1] - 技术迭代解锁应用需求,推动Token调用量倍数增长,同时模型定价下降,形成“成本下降-ROI上升-需求转化-生态繁荣”的AI飞轮效应 [10][12][13] Token消耗的主要驱动方 C端应用 - **大流量池产品的附加AI功能**:谷歌搜索AI Overview功能月活超20亿,单日Token消耗量在1.6至9.6万亿区间,占Google日均调用量的4.9%至29.4% [4] 抖音、剪映、今日头条等月活量级分别达10亿、7亿、2.6亿,百度AI搜索和美图秀秀在各自品类访问量居国内第一 [4][5][6] - **原生聊天助手**:ChatGPT的APP+网页端合计月活达10.15亿,是OpenAI重要的Token调用量驱动因素 [7] - **新兴AI应用**:字节跳动的醒图月活4924万(当月收入59万美元)、即梦月活1393万(当月收入58万美元)、猫箱月活794万(当月收入112万美元) [7] 多模态应用如Canva用于文生图、文生视频等场景,单张图片的Token消耗量在1024至1290之间 [7] B端应用 - **渗透率广泛**:企业级AI应用已覆盖汽车与物流、金融服务、医疗等11大行业,Google报告显示全球601个领先企业已尝试将生成式AI投入生产 [8] - **收入占比显著**:OpenAI来自B端的年化营收占比达54%,Anthropic占比达80% [9] 谷歌Gemini企业客户超8.5万家,调用量同比增长35倍;火山引擎大模型收入在国内公有云市场份额达46.4% [9] 技术迭代对Token消耗的影响 - **推理能力增强**:GPT-5和Grok-4通过强化推理、多模态、长上下文等技术,提升AI在复杂生产力场景的实用性 [10][11] 例如客服对话从单轮200 Token消耗扩展至4轮内部推理(每轮150-200 Token),总消耗达600-800 Token,实现存量场景的Token调用量倍数增长 [11][12] - **定价下降与成本优化**:xAI的Grok-4-Fast输出百万Token仅需0.5美元,阿里通义千问模型最低至0.3元/百万Token [12] 模型厂商通过稀疏化、量化、GPU利用率提升及芯片替代等手段优化算力成本,推动平均Token定价大幅下降 [13] - **分层策略降低门槛**:OpenAI推出GPT-5-mini/nano覆盖轻量场景,Google以Gemini 2.5 Flash主打“极速低价”,Anthropic提供Claude 3.5 Haiku等高性价比选项,促进中小预算客户接入 [13] Token经济学的行业意义 - Token经济学为AI行业提供关键洞察:成本与经济效益的量化、技术效能与模型能力的评估、应用场景的深化与演化以及商业模式与市场格局的清晰化 [14] - 行业走向成熟务实,聚焦于以可承受成本可靠解决实际问题并创造商业价值,标志着AI成为驱动下一代技术和商业创新的基础效用 [15][16]
DeepSeek 复盘:128 天后,为什么用户流量一直在下跌?
Founder Park· 2025-07-13 04:19
行业核心挑战 - AI行业面临计算资源稀缺的根本性制约 计算资源成为AI时代的"新石油" [4][39][58] - 公司需在计算资源、用户体验和技术发展之间进行复杂权衡 价格战背后是资源分配策略的差异 [4][30][58] AI服务定价机制 - AI服务定价本质是延迟、吞吐量和上下文窗口三大性能指标的权衡游戏 [2][3] - 延迟(Time-to-First-Token)指首个token生成时间 [23][24] - 吞吐量(Throughput)决定对话流畅度 基准为20-30 token/秒 [25][26] - 上下文窗口(Context Window)影响模型记忆容量 主流服务商提供64K-160K范围 [28][29] - 通过调整这三个参数 服务商可实现任意价格水平 单纯比较$/Mtok价格意义有限 [30][33] DeepSeek战略分析 - 采用极端配置换取低价:数秒延迟、25 token/秒吞吐量、64K最小上下文窗口 [4][33][34] - 官方平台MAU从6147亿降至4362亿(-29%) 但第三方托管模型使用量暴增20倍 [15][16] - 核心策略是通过高batch处理降低推理成本 将90%以上计算资源保留用于AGI研发 [39][57] - 编程能力显著提升 R1-0528版本较1月版本实现重大改进 [10][52][57] Anthropic应对策略 - 编程领域成功导致计算资源紧张 Claude 35 Sonnet API输出速度下降30%至55 token/秒 [44][45] - 采取"智能密度"优化:相同任务所需token数仅为竞品的1/3 提升资源利用效率 [48][49] - 积极获取外部计算资源: - 与亚马逊签约50万片Trainium芯片 [46] - 从Google Cloud租用大量TPU资源 [46] 行业竞争格局演变 - OpenAI将o3 API价格下调80% 封闭模式与开源方案价差从8-9倍缩至3-5倍 [55] - 推理云服务崛起 Cursor等"GPT Wrappers"推动token直销模式普及 [51] - 中国公司受出口管制影响主要在服务部署环节 模型训练能力保持强劲 [39][57]
DeepSeek与Anthropic的生存策略 | Jinqiu Select
锦秋集· 2025-07-04 23:35
文章核心观点 - AI行业的核心瓶颈是计算资源的稀缺,这制约了各家公司的发展 [1] - AI服务的定价本质上是延迟、吞吐量和上下文窗口三个性能指标的权衡游戏 [2][3] - DeepSeek和Anthropic采取了不同的策略来应对计算资源限制,反映了行业面临的共同挑战 [4][5] - 随着推理云服务的崛起,如何在有限计算资源下实现技术突破和商业成功的平衡成为关键 [5] AI服务定价机制 - AI服务的定价由三个关键性能指标决定:延迟(用户等待时间)、吞吐量(每秒生成token数)和上下文窗口(模型记忆容量) [3][22][23] - 通过调整这三个参数,服务商可以实现任何价格水平 [24] - 单纯比较每百万token价格意义不大,需结合实际应用场景和用户需求 [24] DeepSeek的策略分析 - DeepSeek选择极端配置:数秒延迟、每秒25个token输出速度、64K上下文窗口,换取极低价格和最大化研发资源 [4][26][28] - 官方平台用户流失29%(从614.7M降至436.2M),但第三方托管模型使用量暴增20倍 [15][16] - 公司主动牺牲用户体验,通过高batch率降低推理资源消耗,保留最大计算资源用于内部研发 [33] - 采用开源策略扩大全球影响力,让其他云服务商托管模型 [33] Anthropic的困境与应对 - Claude在编程领域成功导致计算资源紧张,API输出速度下降30%至每秒55个token [36] - 编程应用消耗更多计算资源,迫使提高batch处理规模 [36] - 与亚马逊达成合作获取50万片Trainium芯片,并向Google租用TPU资源 [37] - 通过提升"智能密度"优化资源利用,模型回答问题所需token数量远少于竞争对手 [40][42] 行业竞争格局变化 - OpenAI将旗舰模型降价80%,价格战加剧 [8][49] - 推理云服务崛起,更多公司将token作为服务直接销售而非打包订阅 [43] - DeepSeek R1编程能力显著提升,成本效益优势明显 [45][47] - Google凭借TPU计算优势提供免费大配额服务 [34] 技术发展趋势 - 强化学习持续迭代改进模型能力,DeepSeek R1-0528版本编程性能显著提升 [10][52] - 出口管制限制中国大规模部署推理服务能力,但未同等阻碍训练优秀模型的能力 [33] - 计算资源优化方式包括:提高batch规模、优化硬件使用(AMD/NVIDIA芯片)、提升token智能密度 [31][32][42]