DeepSeek等开源模型,更“浪费”token吗?
Seek .Seek .(US:SKLTY) 虎嗅·2025-10-10 08:09

开源模型与闭源模型的Token效率差异 - 开源模型在回答简单知识问题时存在明显效率劣势,DeepSeek-R1完成任务消耗的token数量比基准水平高出4倍[2] - 在需要复杂推理的数学题和逻辑谜题上,开源模型的效率劣势收窄,DeepSeek-R1消耗的token数量仅高出基准水平2倍左右[3] - 中国领先开源模型如Qwen-3-235B和DeepSeek-R1通过"慢思考"方式提升解题准确率,代价是输出长度超过其他前沿模型,导致更多token消耗[5][6] Token消耗对经济性的影响 - AI任务经济性公式可归纳为:收益=token兑现的价值-单位token成本×消耗token数量,消耗数量是决定经济性的关键变量[9] - 过多token消耗会带来响应时间延长、用户体验下降,并可能耗尽模型上下文窗口,限制处理复杂长任务的能力[14] - 在实际工作场景中存在明显成本约束,随着多模型与智能体广泛落地,更多推理次数和更长推理时间将带来更高能耗[13] 中美在Token经济学上的技术路径分岔 - 中国开源模型首要目标是用较多token换取较高价值,从DeepSeek-R1到R1-0528的迭代往往伴随总token消耗上升[15][16] - 美国闭源模型专注于降低token消耗并提升token价值,Anthropic、OpenAI与xAI的模型迭代伴随着总token消耗降低[16] - 中国开源社区贡献主要体现在算法和架构改进,如阿里巴巴Qwen3-Next架构总参数80B仅需激活3B即可媲美旗舰版性能[10] 降低Token成本的技术措施 - 硬件改进带来1.5至2倍能耗降幅,模型改进带来3至4倍降幅,工作负载优化带来2至3倍降幅[11] - 工作负载优化包括KV缓存管理、批大小管理、用户手动设置token预算上限、智能路由调用合适模型等技术[11] - OpenAI采用实时路由系统根据对话类型、复杂度等快速决定调用哪个模型,字节跳动探索Knapsack RL预算分配策略[11] 基础设施对Token经济性的放大效应 - 在特定基础设施框架下,DeepSeek-R1成为碳排放量最高的前沿模型,远高于其他模型[18] - 该结果源于DeepSeek-R1大量依赖CoT深度思考,且被分配了H800等更低能效芯片以及更高PUE的数据中心[18] - 基于海外第三方API价格,DeepSeek等开源模型仍具备整体成本优势,但在最高API定价时优势不再显著[19]