MFU - 财报，业绩电话会，研报，新闻

MFU

搜索文档

创业邦· 2026-03-26 08:55

文章核心观点 - 当前AI行业存在严重的“Token焦虑”，核心矛盾在于Token消耗量巨大且使用成本过高，而大规模消耗带来的实际效益存疑，主要受益者是英伟达等硬件和算力提供商[6][7] - 高昂的Token成本已成为阻碍AI Agent（文中称为“小龙虾”）大规模普及的关键因素，远超普通消费级软件的付费门槛，过滤掉了大量非付费用户[9][10] - 行业试图通过模型优化、硬件创新和价格战来降低成本，但面临存储硬件涨价、模型能力与成本平衡、以及商业考量等多重挑战，短期内难以解决价格问题[12][13][19][23] Token的成本与消耗问题 - Token消耗量已达到惊人级别，例如有OpenAI程序员一周消耗了2100亿Token，相当于33个维基百科的体量，而一个任务烧掉千万级Token已成为常态[6] - Token使用成本高昂，用户反馈测试一句“你好”就消耗80美元，优化后日均成本仍需10多美元（年费约25200元），远超剪映（年费约600元）等消费级软件[6][9] - 复杂任务（如生成视频、创作短剧）是Token消耗的主要场景，此外还需叠加生图模型API、搜索API等额外费用，进一步推高使用门槛[9][10] 行业降本面临的挑战与路径 - **存储硬件成本飙升**：HBM等关键存储器件价格疯涨，2026年Q1 DRAM价格环比上涨超50%，NAND价格环比最高涨幅达150%，且头部客户战略长约已签至5年，预计价格最早2028年才可能回落[12][13] - **模型效率优化空间**：通过提升模型能力密度（如Densing Law指出同等性能所需参数量每3.5个月减半）和推理MFU（模型浮点利用率），可降低成本。目前主流大模型推理MFU均值约30%，优化后可超50%，估计能省出50%的成本[13][14] - **价格战动力不足**：尽管2024年国内厂商曾爆发价格战（如DeepSeek-V2价格仅为GPT-4-Turbo的百分之一），但在当前B端和C端需求同时爆发、模型能力趋于稳定的背景下，厂商为避免存量用户ARR收入失血，缺乏再次发动价格战的动力[16][17][18] 硬件层面的成本解决方案与局限 - **本地部署尝试**：部分用户尝试基于Mac Mini等硬件进行本地模型部署以控制成本，但存在门槛高、开源模型能力不足等问题[21] - **专用芯片创新**：有创业团队（如Taalas）推出专芯专用方案，通过将模型权重硬编码固化在芯片上（如HC1芯片可运行Llama 3.1 8B模型，TPS达16960/s），彻底消除内存墙限制。但缺点是模型固定无法更改，想换模型需重新流片[22][23] - **边缘硬件挑战**：EdgeClaw等端侧AI硬件创业项目面临内存涨价环境、Mac Mini超高性价比的竞争，以及需逾越电商平台准系统产品（价格低于2000元）等难关[21][22] 市场现状与未来展望 - 根据Artificial Analysis数据，国产大模型API单价（如MiniMax-M2.7为每百万Token 0.53美元）已显著低于海外模型（如Claude Opus 4.6为10美元），但对于Agent的巨量消耗而言仍显不足[18][19] - 行业共识是抢用户是持久战，非一两次价格战能解决，且受硬件成本冲击，国内云厂商短期降价可能性低[19] - 根本问题在于重度任务对Token使用量的倍数放大效应，解决之道依赖于更便宜的Token定价或Token消耗最小化，这需要模型优化与硬件创新的共同推进[23][27]