Token成本现状与挑战 - Token消耗量巨大且价格昂贵,例如有OpenAI程序员一周消耗了2100亿Token,相当于33个维基百科的规模[7][8] - 用户进行复杂任务(如生成视频、创作短剧)时Token成本高昂,有用户反馈测试一句“你好”就消耗掉80美元[7][10] - 对比消费级软件,AI工具成本过高,例如有用户通过优化将日均Token费用从几百美元降至10多美元,年费达25200元,远高于剪映高端会员600元的年费[10][11] Token成本构成与降价瓶颈 - Token本质是算力成本,其总成本包括研发、硬件、部署、能耗及运营等,行业正形成以Token/W为核心的新成本衡量指标[15][16] - HBM等关键存储器件价格疯涨成为Token降本的外部障碍,2026年第一季度DRAM价格环比上涨超50%,NAND价格环比最高涨幅达150%[17] - 存储供应紧张,头部客户战略长约已签至5年,行业乐观预计存储价格2028年回落,悲观预计要到2030年[17] 通过技术优化降低成本的路径 - 模型能力提升是降价的关键杠杆,例如“Densing Law”指出大模型能力密度约每3.5个月翻一倍,同等性能所需参数量每3.5个月减半[19] - 提升硬件利用率(MFU)可压缩成本,目前主流大模型推理MFU均值在30%左右,优化后可超50%,估计能节省50%的成本[19] - 模型架构优化可直接降低Token成本,例如DeepSeek-V2通过MoE稀疏架构和MLA注意力机制将KV缓存压缩90%以上,实现了大幅降价[21] 行业价格战历史与当前态势 - 2024年国内大模型厂商曾爆发激烈价格战,DeepSeek-V2将价格降至GPT-4-Turbo的百分之一,引发阿里、字节等厂商跟进,一度出现“Token免费”现象[21] - 当前B端和C端需求同时爆发,但市场对再次发动价格战表现沉默,厂商认为在拥有稳定用户来源的情况下,为增量不确定的市场牺牲存量ARR收入并不划算[21][22] - 尽管国产模型API单价已具有优势,例如部分模型每百万Token价格低至0.53美元,但对于Agent的巨量消耗而言,成本仍然过高[22][23] 硬件层面的成本解决方案 - 部分用户尝试通过本地部署模型(如在Mac Mini上)来应对Token消耗成本,但面临硬件门槛高、开源模型能力不足及内存涨价等多重挑战[25] - 有创业公司推出EdgeClaw等端侧AI硬件并附加安全故事,但在内存涨价和Mac Mini等高性价比产品的竞争下,发展面临困难[25][26] - 芯片级创新出现,例如Taalas团队的HC1芯片将Llama 3.1 8B模型权重硬编码固化在硅片上,实现了16960 Token/s的高输出性能,但缺点是专芯专用,灵活性差[27] 核心矛盾与行业焦虑 - Token成本问题的核心在于重度任务对使用量的倍数放大,导致总费用高企,而投入的有效产出却不明确[29][32] - 行业领袖一方面呼吁大量使用Token并将其与绩效挂钩,另一方面又呼吁避免引发公众对AI的非理性恐慌,被指制造了“Token焦虑”和“AI焦虑”[8][32] - 市场期待通过更便宜的Token定价或消耗最小化来改变现状,这最终依赖于模型优化和推理硬件的创新[32]
人民想念DeepSeek
虎嗅APP·2026-03-25 17:57