人民想念DeepSeek

Token成本现状与挑战 - Token消耗量巨大且价格昂贵，例如有OpenAI程序员一周消耗了2100亿Token，相当于33个维基百科的规模[7][8] - 用户进行复杂任务（如生成视频、创作短剧）时Token成本高昂，有用户反馈测试一句“你好”就消耗掉80美元[7][10] - 对比消费级软件，AI工具成本过高，例如有用户通过优化将日均Token费用从几百美元降至10多美元，年费达25200元，远高于剪映高端会员600元的年费[10][11] Token成本构成与降价瓶颈 - Token本质是算力成本，其总成本包括研发、硬件、部署、能耗及运营等，行业正形成以Token/W为核心的新成本衡量指标[15][16] - HBM等关键存储器件价格疯涨成为Token降本的外部障碍，2026年第一季度DRAM价格环比上涨超50%，NAND价格环比最高涨幅达150%[17] - 存储供应紧张，头部客户战略长约已签至5年，行业乐观预计存储价格2028年回落，悲观预计要到2030年[17] 通过技术优化降低成本的路径 - 模型能力提升是降价的关键杠杆，例如“Densing Law”指出大模型能力密度约每3.5个月翻一倍，同等性能所需参数量每3.5个月减半[19] - 提升硬件利用率（MFU）可压缩成本，目前主流大模型推理MFU均值在30%左右，优化后可超50%，估计能节省50%的成本[19] - 模型架构优化可直接降低Token成本，例如DeepSeek-V2通过MoE稀疏架构和MLA注意力机制将KV缓存压缩90%以上，实现了大幅降价[21] 行业价格战历史与当前态势 - 2024年国内大模型厂商曾爆发激烈价格战，DeepSeek-V2将价格降至GPT-4-Turbo的百分之一，引发阿里、字节等厂商跟进，一度出现“Token免费”现象[21] - 当前B端和C端需求同时爆发，但市场对再次发动价格战表现沉默，厂商认为在拥有稳定用户来源的情况下，为增量不确定的市场牺牲存量ARR收入并不划算[21][22] - 尽管国产模型API单价已具有优势，例如部分模型每百万Token价格低至0.53美元，但对于Agent的巨量消耗而言，成本仍然过高[22][23] 硬件层面的成本解决方案 - 部分用户尝试通过本地部署模型（如在Mac Mini上）来应对Token消耗成本，但面临硬件门槛高、开源模型能力不足及内存涨价等多重挑战[25] - 有创业公司推出EdgeClaw等端侧AI硬件并附加安全故事，但在内存涨价和Mac Mini等高性价比产品的竞争下，发展面临困难[25][26] - 芯片级创新出现，例如Taalas团队的HC1芯片将Llama 3.1 8B模型权重硬编码固化在硅片上，实现了16960 Token/s的高输出性能，但缺点是专芯专用，灵活性差[27] 核心矛盾与行业焦虑 - Token成本问题的核心在于重度任务对使用量的倍数放大，导致总费用高企，而投入的有效产出却不明确[29][32] - 行业领袖一方面呼吁大量使用Token并将其与绩效挂钩，另一方面又呼吁避免引发公众对AI的非理性恐慌，被指制造了“Token焦虑”和“AI焦虑”[8][32] - 市场期待通过更便宜的Token定价或消耗最小化来改变现状，这最终依赖于模型优化和推理硬件的创新[32]