人民想念DeepSeek

Token成本现状与行业焦虑 - Token作为大模型处理信息的基本单位，其消耗量巨大且价格昂贵，已成为AI应用的核心成本问题[7] - 有OpenAI程序员一周消耗了2100亿Token，相当于33个维基百科的文本量，但如此巨大的消耗带来的实际效果存疑[8] - 即使是日均10美元（年费约25200元人民币）的Token使用成本，也远超中国主流消费级软件（如剪映高端会员年费约600元）的付费门槛，将过滤掉大量非付费用户[10][11] Token消耗的驱动与质疑 - 英伟达CEO黄仁勋积极倡导大量使用Token，甚至建议将其纳入薪酬激励，称若年薪50万美元的工程师未消耗掉25万美元的Token会“极度恐慌”[7][8] - 行业质疑这种“疯狂烧Token”运动的实际效果，认为其明确受益者是像英伟达这样的“Token制造机”供应商，而非终端用户[8] - 重度使用Token的投入产出比不明确，其倡导被指在制造“Token焦虑”和“AI焦虑”[8][35] Token成本构成与降价瓶颈 - Token成本本质上是算力成本，涉及研发、硬件、部署、能耗及运营等多方面[16] - 关键存储器件HBM内存价格疯涨成为Token降本的主要外部瓶颈：2026年第一季度DRAM价格环比上涨超50%，NAND价格最高环比涨幅达150%[17] - 存储原厂与头部客户的战略长约已签至5年，行业乐观预计存储价格2028年回落，悲观预计要到2030年，短期内Token降价缺乏关键杠杆[17] 潜在的降本路径与技术优化 - 模型能力的提升是降价的内在杠杆，“Densing Law”指出大模型能力密度约每3.5个月翻一倍，同等性能所需参数量每3.5个月减半[18] - 提升模型推理的MFU（模型浮点运算利用率）是重要降本方向，当前主流大模型推理MFU均值约30%，优化后可超50%，估计能节省50%的成本[19] - 推理优化技术（如MoE稀疏架构、KV缓存压缩）曾在2024年推动价格战，使DeepSeek-V2价格降至GPT-4-Turbo的百分之一[21] 当前市场对价格战的态度 - 相较于2024年由DeepSeek引发的激烈价格战（甚至出现“Token免费”现象），当前面对B端和C端Token需求同时爆发的市场却表现得出奇沉默[21] - 行业参与者认为，在模型特定能力成熟、拥有稳定用户来源后，为“小龙虾”类应用打价格战可能导致存量用户的年度经常性收入失血，增量却不明确，因此缺乏动力[22] - 尽管国产大模型API单价（如MiniMax-M2.7低至每百万Token 0.53美元）已显著低于北美模型，但面对Agent的巨量消耗仍显不足，且云厂商受硬件成本冲击正面临涨价压力[23][24] 硬件层面的成本应对方案 - 部分用户尝试通过本地部署（如基于Mac Mini）来应对Token消耗成本，但存在门槛高、开源模型能力不足等问题[26] - 有创业项目推出EdgeClaw等端侧AI硬件并附加安全故事，但在内存涨价和苹果Mac Mini超高性价比的竞争下挑战巨大[27][29] - 更底层的芯片创新出现，如Taalas团队的HC1芯片，通过将Llama 3.1 8B模型权重硬编码固化在硅片上，实现单芯片16960 Token/s的输出性能，彻底消除内存数据搬运，但缺点是专芯专用，无法更换模型[30] 核心矛盾与未来期待 - Token成本问题的核心矛盾在于：贵的并非单价，而是重度复杂任务对Token使用量的倍数放大效应[32] - 改变现状依赖于更便宜的Token定价或Token消耗的最小化，这需要模型优化与推理硬件创新的共同推动[35] - 行业在等待类似2024年DeepSeek引发的颠覆性价格战再次出现，以解决当前高昂的使用成本问题[36]