Workflow
Token经济学
icon
搜索文档
如何正确理解Token经济学?
36氪· 2025-09-23 19:04
因此,从Tokens角度跟踪AI应用落地进展,就是一个非常深刻且切中要害的视角。 去年5月,当大模型厂商卷起价格战时,Tokens大概率是出镜率最高的英文单词。 简单来说,Tokens是大语言模型(LLM)用来切割自然语言文本的基本单位,可以直观的理解 为"字"或"词"。 就像工业时代用"千瓦时"度量电力消耗,互联网时代用"GB"度量数据流量,AI时代用"Token"来度量模 型的工作量。一个Token可以理解为一个词或词片段(中文里可能是一个字或词语)。 Tokens的调用量,本质反映了模型推理过程的计算量。而计算量的高或低,直接揭示了模型在实际应用 中的能力、成本、速度和可行性。 它意味着我们将AI从一种"黑箱魔法"或纯粹的技术概念,拉回到了一个可度量、可分析、可商业化的实 际生产要素的层面。 简单来说,这意味着我们不再只关注AI"能做什么",而是开始量化分析它"做了多少"、"效率多 高"、"成本多少"以及"价值多大"。 1 谁在消耗tokens? 模型厂商以tokens为主要定价单位的底层逻辑是:模型调用时的tokens消耗量与相应算力投入存在强关 联性。而另一条暗线则是,算力投入链接了营收与token ...
DeepSeek 复盘:128 天后,为什么用户流量一直在下跌?
Founder Park· 2025-07-13 04:19
行业核心挑战 - AI行业面临计算资源稀缺的根本性制约 计算资源成为AI时代的"新石油" [4][39][58] - 公司需在计算资源、用户体验和技术发展之间进行复杂权衡 价格战背后是资源分配策略的差异 [4][30][58] AI服务定价机制 - AI服务定价本质是延迟、吞吐量和上下文窗口三大性能指标的权衡游戏 [2][3] - 延迟(Time-to-First-Token)指首个token生成时间 [23][24] - 吞吐量(Throughput)决定对话流畅度 基准为20-30 token/秒 [25][26] - 上下文窗口(Context Window)影响模型记忆容量 主流服务商提供64K-160K范围 [28][29] - 通过调整这三个参数 服务商可实现任意价格水平 单纯比较$/Mtok价格意义有限 [30][33] DeepSeek战略分析 - 采用极端配置换取低价:数秒延迟、25 token/秒吞吐量、64K最小上下文窗口 [4][33][34] - 官方平台MAU从6147亿降至4362亿(-29%) 但第三方托管模型使用量暴增20倍 [15][16] - 核心策略是通过高batch处理降低推理成本 将90%以上计算资源保留用于AGI研发 [39][57] - 编程能力显著提升 R1-0528版本较1月版本实现重大改进 [10][52][57] Anthropic应对策略 - 编程领域成功导致计算资源紧张 Claude 35 Sonnet API输出速度下降30%至55 token/秒 [44][45] - 采取"智能密度"优化:相同任务所需token数仅为竞品的1/3 提升资源利用效率 [48][49] - 积极获取外部计算资源: - 与亚马逊签约50万片Trainium芯片 [46] - 从Google Cloud租用大量TPU资源 [46] 行业竞争格局演变 - OpenAI将o3 API价格下调80% 封闭模式与开源方案价差从8-9倍缩至3-5倍 [55] - 推理云服务崛起 Cursor等"GPT Wrappers"推动token直销模式普及 [51] - 中国公司受出口管制影响主要在服务部署环节 模型训练能力保持强劲 [39][57]
DeepSeek与Anthropic的生存策略 | Jinqiu Select
锦秋集· 2025-07-04 23:35
文章核心观点 - AI行业的核心瓶颈是计算资源的稀缺,这制约了各家公司的发展 [1] - AI服务的定价本质上是延迟、吞吐量和上下文窗口三个性能指标的权衡游戏 [2][3] - DeepSeek和Anthropic采取了不同的策略来应对计算资源限制,反映了行业面临的共同挑战 [4][5] - 随着推理云服务的崛起,如何在有限计算资源下实现技术突破和商业成功的平衡成为关键 [5] AI服务定价机制 - AI服务的定价由三个关键性能指标决定:延迟(用户等待时间)、吞吐量(每秒生成token数)和上下文窗口(模型记忆容量) [3][22][23] - 通过调整这三个参数,服务商可以实现任何价格水平 [24] - 单纯比较每百万token价格意义不大,需结合实际应用场景和用户需求 [24] DeepSeek的策略分析 - DeepSeek选择极端配置:数秒延迟、每秒25个token输出速度、64K上下文窗口,换取极低价格和最大化研发资源 [4][26][28] - 官方平台用户流失29%(从614.7M降至436.2M),但第三方托管模型使用量暴增20倍 [15][16] - 公司主动牺牲用户体验,通过高batch率降低推理资源消耗,保留最大计算资源用于内部研发 [33] - 采用开源策略扩大全球影响力,让其他云服务商托管模型 [33] Anthropic的困境与应对 - Claude在编程领域成功导致计算资源紧张,API输出速度下降30%至每秒55个token [36] - 编程应用消耗更多计算资源,迫使提高batch处理规模 [36] - 与亚马逊达成合作获取50万片Trainium芯片,并向Google租用TPU资源 [37] - 通过提升"智能密度"优化资源利用,模型回答问题所需token数量远少于竞争对手 [40][42] 行业竞争格局变化 - OpenAI将旗舰模型降价80%,价格战加剧 [8][49] - 推理云服务崛起,更多公司将token作为服务直接销售而非打包订阅 [43] - DeepSeek R1编程能力显著提升,成本效益优势明显 [45][47] - Google凭借TPU计算优势提供免费大配额服务 [34] 技术发展趋势 - 强化学习持续迭代改进模型能力,DeepSeek R1-0528版本编程性能显著提升 [10][52] - 出口管制限制中国大规模部署推理服务能力,但未同等阻碍训练优秀模型的能力 [33] - 计算资源优化方式包括:提高batch规模、优化硬件使用(AMD/NVIDIA芯片)、提升token智能密度 [31][32][42]