效率导向
搜索文档
推理成本打到1元/每百万token,浪潮信息撬动Agent规模化的“最后一公里”
量子位· 2025-12-26 12:24
行业核心趋势 - 全球AI产业已从模型性能竞赛进入智能体规模化落地的“生死竞速”阶段,“降本”成为决定AI企业能否盈利、行业能否突破的核心命脉 [1] - 当前AI时代处于临界点,token成本下降是推动应用生态爆发的关键,类似互联网“提速降费”的历史进程 [7] - 技术进步促使token单价下滑,但单任务对token的需求呈指数级增长,若成本下降速度跟不上消耗增长,将面临更高费用投入,经济学中的“杰文斯悖论”正在token经济中重演 [8] - 要让AI真正成为“水电煤”般的基础资源并进入规模化普惠阶段,token成本必须在现有基础上实现数量级的跨越,成本能力将从“核心竞争力”升级为“生存入场券” [4][5][11] 成本挑战与瓶颈 - 现阶段token成本80%以上来自算力支出,阻碍成本下降的核心矛盾在于推理负载与训练负载不同,沿用旧架构导致“高配低效” [12] - 核心瓶颈之一是算力利用率(MFU)严重倒挂:训练阶段MFU可达50%以上,而推理阶段由于自回归解码特性,实际MFU往往仅为5%-10%,造成巨大算力闲置 [14] - 核心瓶颈之二是“存储墙”问题:随着上下文长度增加,KV Cache呈指数级增长,占用大量显存并导致高功耗,存算分离成为阻碍成本下降的重要瓶颈 [15][16] - 核心瓶颈之三是网络通信代价高昂:当模型规模突破单机承载能力时,跨节点通信可能占据总推理时间的30%以上,推高了总拥有成本(TCO) [17] 市场需求与规模 - 字节跳动旗下豆包大模型截至今年12月日均token使用量突破50万亿,较去年同期增长超过10倍,相比2024年5月刚推出时增长达417倍 [13] - 谷歌在10月披露其各平台每月处理的token用量已达1300万亿(相当于日均43.3万亿),而一年前月均仅为9.7万亿 [13] - 当使用量达到“百万亿token/月”量级时,每百万token成本仅下降1美元,就可能带来每月1亿美元的成本差异 [10] - 当前主流大模型的token成本依然高昂,以输出百万token为例,Claude、Grok等模型价格普遍在10-15美元,国内大模型也多在10元以上,高昂成本让大规模商业化应用面临严峻ROI挑战 [19][20] 解决方案与技术创新 - 降低token成本的核心不是“把一台机器做得更全”,而是围绕目标重构系统,将推理流程拆细,支持P/D分离、A/F分离、KV并行、细粒度专家拆分等计算策略,让不同计算模块在不同卡上按需配置并发,提升每张卡的负载和产出 [18] - 浪潮信息推出元脑HC1000超扩展AI服务器,基于全新设计的全对称DirectCom极速架构,采用无损超扩展设计,可高效聚合海量本土AI芯片,支持极大推理吞吐量,将推理成本首次击穿至1元/每百万token [2][23] - 元脑HC1000的DirectCom极速架构每计算模组配置16颗AIPU,采用直达通信设计,解决传统架构的协议转换和带宽争抢问题,实现超低延迟,计算通信1:1均衡配比,实现全局无阻塞通信 [25] - 该架构支持超大规模无损扩展,通过算网深度协同、全域无损技术实现推理性能1.75倍提升,通过对大模型计算流程细分和模型结构解耦,实现计算负载灵活按需配比,单卡MFU最高可提升5.7倍 [27] - 通过自适应路由和智能拥塞控制算法,提供数据包级动态负载均衡,将KV Cache传输对Prefill、Decode计算实例影响降低5-10倍 [29] 未来发展方向 - 当前1元/每百万token的成本突破仅是阶段性胜利,面对未来token消耗量指数级增长、复杂任务token需求激增数十倍的趋势,现有成本水平仍难支撑AI的普惠落地 [4] - 若要实现单token成本的持续、数量级下降,需要推动计算架构的根本性革新,要求整个AI产业的产品技术创新从当前的规模导向转为效率导向 [29] - 未来需从根本上重新思考和设计AI计算系统,发展AI专用计算架构,探索开发大模型芯片,推动算法硬件化的专用计算架构创新,实现软硬件深度优化 [29]
70%的企业转型失败,因为太追求效率至上
36氪· 2025-04-23 10:54
转型成功率的现状与挑战 - 据估计,70%的变革举措最终以失败告终 [1] - 2023年对276名采购专业人士的调查显示,自2018年以来,每个采购部门平均每年启动近一个新转型项目,调查期间平均同时推进约三个转型项目 [1] - 70%的受访者表示达成转型目标比预期更难,转型在达成成本节约目标上的平均评分仅为58分(满分100分) [1] 效率导向转型方法的局限性 - 绝大多数组织在推动转型时聚焦于提升效率,遵循类似"最小可行产品"的策略,强调速度 [2] - 效率导向方法通常快速部署新工作流程,赋予员工自主权解决不确定性,并创建标准化流程 [3] - 研究表明,即便将效率导向方法做到极致,转型成功率也仅提升5% [3] 设计简化方法的核心与优势 - 采用"设计简化"方法的企业,转型成功率提升了42% [3] - "设计简化"是一种以使用者体验为核心的业务流程管理方式,旨在通过优化流程、工具和利益相关方互动来降低复杂性 [4] - 该方法遵循九大原则,包括确保新流程在上线时没有漏洞、使工作更易完成、易于理解和遵循、能覆盖罕见情况等 [4] - 采用"设计简化"的转型落地时间相比效率导向方法仅慢六周,相较于平均2.5年的转型周期微不足道,且效率导向的转型在正式落地时往往并未真正完成 [7] 设计简化方法有效的关键原因 - 关注转型的投资回报率而非完成时间,在速度与质量的权衡上找到正确平衡点 [8] - 转型后的工作流程更完整,新流程在经过充分设计、确保完整性后才会正式实施,员工无须自行解决漏洞 [9] - 以员工体验和参与为核心,领导者、经理和员工作为一个团队紧密协作,使员工意见在转型设计阶段就能得到采纳 [11] - 应用该方法的企业员工满意度提升123%,运营效率提高68%,应对日常业务需求难度降低26%,转型期间员工士气下滑幅度减少51% [12] - 充分考虑各种可能场景,通过前期投入确保流程的全面性,最大程度减少情境上的不确定性 [15] 实施设计简化的具体步骤 - 调查现状:详细梳理当前需要转型的工作流程,明确其现状 [18] - 深入分析:访谈工作流程的实际使用者,识别流程中的具体复杂性,将其归类为"太多"、"太少"或"太难"三种根本原因 [19] - 优化流程:重新设计或调整工作流程以解决复杂性问题,如删除冗余、补充缺失部分、拆解复杂操作等 [20][21][22] - 团队协作:组建由员工、经理和领导者组成的跨层级团队,共同设计目标清晰、易于执行且覆盖所有合理场景的新流程 [23] - 持续聆听与优化:监测新流程的采用情况,将低采用率视为工作流程需优化的信号,并持续改进 [24]