人民想念DeepSeek
腾讯研究院·2026-03-27 16:13

Token成本现状与行业焦虑 - Token作为大模型处理信息的基本单位,其消耗量巨大且价格昂贵,已成为AI应用的核心成本问题[7] - 有OpenAI程序员一周消耗了2100亿Token,相当于33个维基百科的文本量,但如此巨大的消耗带来的实际效果存疑[8] - 即使是日均10美元(年费约25200元人民币)的Token使用成本,也远超中国主流消费级软件(如剪映高端会员年费约600元)的付费门槛,将过滤掉大量非付费用户[10][11] Token消耗的驱动与质疑 - 英伟达CEO黄仁勋积极倡导大量使用Token,甚至建议将其纳入薪酬激励,称若年薪50万美元的工程师未消耗掉25万美元的Token会“极度恐慌”[7][8] - 行业质疑这种“疯狂烧Token”运动的实际效果,认为其明确受益者是像英伟达这样的“Token制造机”供应商,而非终端用户[8] - 重度使用Token的投入产出比不明确,其倡导被指在制造“Token焦虑”和“AI焦虑”[8][35] Token成本构成与降价瓶颈 - Token成本本质上是算力成本,涉及研发、硬件、部署、能耗及运营等多方面[16] - 关键存储器件HBM内存价格疯涨成为Token降本的主要外部瓶颈:2026年第一季度DRAM价格环比上涨超50%,NAND价格最高环比涨幅达150%[17] - 存储原厂与头部客户的战略长约已签至5年,行业乐观预计存储价格2028年回落,悲观预计要到2030年,短期内Token降价缺乏关键杠杆[17] 潜在的降本路径与技术优化 - 模型能力的提升是降价的内在杠杆,“Densing Law”指出大模型能力密度约每3.5个月翻一倍,同等性能所需参数量每3.5个月减半[18] - 提升模型推理的MFU(模型浮点运算利用率)是重要降本方向,当前主流大模型推理MFU均值约30%,优化后可超50%,估计能节省50%的成本[19] - 推理优化技术(如MoE稀疏架构、KV缓存压缩)曾在2024年推动价格战,使DeepSeek-V2价格降至GPT-4-Turbo的百分之一[21] 当前市场对价格战的态度 - 相较于2024年由DeepSeek引发的激烈价格战(甚至出现“Token免费”现象),当前面对B端和C端Token需求同时爆发的市场却表现得出奇沉默[21] - 行业参与者认为,在模型特定能力成熟、拥有稳定用户来源后,为“小龙虾”类应用打价格战可能导致存量用户的年度经常性收入失血,增量却不明确,因此缺乏动力[22] - 尽管国产大模型API单价(如MiniMax-M2.7低至每百万Token 0.53美元)已显著低于北美模型,但面对Agent的巨量消耗仍显不足,且云厂商受硬件成本冲击正面临涨价压力[23][24] 硬件层面的成本应对方案 - 部分用户尝试通过本地部署(如基于Mac Mini)来应对Token消耗成本,但存在门槛高、开源模型能力不足等问题[26] - 有创业项目推出EdgeClaw等端侧AI硬件并附加安全故事,但在内存涨价和苹果Mac Mini超高性价比的竞争下挑战巨大[27][29] - 更底层的芯片创新出现,如Taalas团队的HC1芯片,通过将Llama 3.1 8B模型权重硬编码固化在硅片上,实现单芯片16960 Token/s的输出性能,彻底消除内存数据搬运,但缺点是专芯专用,无法更换模型[30] 核心矛盾与未来期待 - Token成本问题的核心矛盾在于:贵的并非单价,而是重度复杂任务对Token使用量的倍数放大效应[32] - 改变现状依赖于更便宜的Token定价或Token消耗的最小化,这需要模型优化与推理硬件创新的共同推动[35] - 行业在等待类似2024年DeepSeek引发的颠覆性价格战再次出现,以解决当前高昂的使用成本问题[36]

人民想念DeepSeek - Reportify