Workflow
MFU
icon
搜索文档
人民想念DeepSeek
创业邦· 2026-03-26 08:55
文章核心观点 - 当前AI行业存在严重的“Token焦虑”,核心矛盾在于Token消耗量巨大且使用成本过高,而大规模消耗带来的实际效益存疑,主要受益者是英伟达等硬件和算力提供商[6][7] - 高昂的Token成本已成为阻碍AI Agent(文中称为“小龙虾”)大规模普及的关键因素,远超普通消费级软件的付费门槛,过滤掉了大量非付费用户[9][10] - 行业试图通过模型优化、硬件创新和价格战来降低成本,但面临存储硬件涨价、模型能力与成本平衡、以及商业考量等多重挑战,短期内难以解决价格问题[12][13][19][23] Token的成本与消耗问题 - Token消耗量已达到惊人级别,例如有OpenAI程序员一周消耗了2100亿Token,相当于33个维基百科的体量,而一个任务烧掉千万级Token已成为常态[6] - Token使用成本高昂,用户反馈测试一句“你好”就消耗80美元,优化后日均成本仍需10多美元(年费约25200元),远超剪映(年费约600元)等消费级软件[6][9] - 复杂任务(如生成视频、创作短剧)是Token消耗的主要场景,此外还需叠加生图模型API、搜索API等额外费用,进一步推高使用门槛[9][10] 行业降本面临的挑战与路径 - **存储硬件成本飙升**:HBM等关键存储器件价格疯涨,2026年Q1 DRAM价格环比上涨超50%,NAND价格环比最高涨幅达150%,且头部客户战略长约已签至5年,预计价格最早2028年才可能回落[12][13] - **模型效率优化空间**:通过提升模型能力密度(如Densing Law指出同等性能所需参数量每3.5个月减半)和推理MFU(模型浮点利用率),可降低成本。目前主流大模型推理MFU均值约30%,优化后可超50%,估计能省出50%的成本[13][14] - **价格战动力不足**:尽管2024年国内厂商曾爆发价格战(如DeepSeek-V2价格仅为GPT-4-Turbo的百分之一),但在当前B端和C端需求同时爆发、模型能力趋于稳定的背景下,厂商为避免存量用户ARR收入失血,缺乏再次发动价格战的动力[16][17][18] 硬件层面的成本解决方案与局限 - **本地部署尝试**:部分用户尝试基于Mac Mini等硬件进行本地模型部署以控制成本,但存在门槛高、开源模型能力不足等问题[21] - **专用芯片创新**:有创业团队(如Taalas)推出专芯专用方案,通过将模型权重硬编码固化在芯片上(如HC1芯片可运行Llama 3.1 8B模型,TPS达16960/s),彻底消除内存墙限制。但缺点是模型固定无法更改,想换模型需重新流片[22][23] - **边缘硬件挑战**:EdgeClaw等端侧AI硬件创业项目面临内存涨价环境、Mac Mini超高性价比的竞争,以及需逾越电商平台准系统产品(价格低于2000元)等难关[21][22] 市场现状与未来展望 - 根据Artificial Analysis数据,国产大模型API单价(如MiniMax-M2.7为每百万Token 0.53美元)已显著低于海外模型(如Claude Opus 4.6为10美元),但对于Agent的巨量消耗而言仍显不足[18][19] - 行业共识是抢用户是持久战,非一两次价格战能解决,且受硬件成本冲击,国内云厂商短期降价可能性低[19] - 根本问题在于重度任务对Token使用量的倍数放大效应,解决之道依赖于更便宜的Token定价或Token消耗最小化,这需要模型优化与硬件创新的共同推进[23][27]