一年后,DeepSeek-R1的每token成本降到了原来的1/32

DeepSeek-R1模型论文更新与技术细节 - 模型论文从22页大幅扩充至86页,首次公开了完整的四阶段训练全路径,包括冷启动、训练导向RL、拒绝采样与再微调以及全场景对齐RL [1] - 论文已发表于《自然》期刊(Nature volume 645, pages 633-638 (2025))[3] DeepSeek-R1模型架构与行业影响 - DeepSeek-R1于2025年1月20日发布,是一个拥有6710亿参数的开源推理大模型,采用MoE架构,单Token激活参数为370亿 [4] - 该模型的高效率架构、训练方法、工程优化和蒸馏方法在发布后已成为全行业的趋势 [5] 英伟达Blackwell平台对DeepSeek-R1的优化成果 - 通过软硬件深度协同,自2025年1月以来,英伟达已将DeepSeek-R1的吞吐量提升了约36倍,使单Token的推理成本降低到了约1/32 [6][18] - 在过去三个月中(去年10月到今年1月),通过TensorRT-LLM软件优化,每个Blackwell GPU在8k/1k序列长度下的Token吞吐量提升高达2.8倍 [17] 英伟达GB200 NVL72系统架构与性能 - NVIDIA GB200 NVL72是一个多节点液冷机架级系统,通过第五代NVLink连接72个Blackwell GPU,提供高达1800 GB/s的双向带宽 [11] - 该架构专为稀疏MoE模型优化,支持NVFP4数据格式硬件加速,并采用解耦服务技术(Prefill与Decode操作分离)以提升效率 [12] - 在运行DeepSeek-R1时,GB200 NVL72在8K/1K及1K/1K输入/输出序列长度下均展现出行业领先的Token吞吐量与单GPU吞吐能力 [13][14][17] 英伟达HGX B200平台性能加速技术 - NVIDIA HGX B200平台由八个Blackwell GPU通过NVLink互连,在风冷环境下提供强大的DeepSeek-R1推理性能 [21] - 多Token预测技术能显著提高各种交互级别下的吞吐量,在测试的多种输入/输出序列组合中均观察到性能提升 [21][24] - 采用NVFP4数据格式能充分利用Blackwell GPU计算能力提升性能并保持精度,在相同平台上可实现更高的吞吐量与交互级别 [24][27][29] 行业背景与英伟达技术战略 - 随着AI模型处理任务日益复杂,用户与AI交互频率增加,生成的Token数量呈指数级增长,推动行业追求极高的每瓦特Token吞吐量以降低每百万Token成本 [8] - 英伟达通过在GPU、CPU、网络、软件、供电及散热方案上的深度协同设计,持续提升每瓦特Token吞吐量,并优化软件栈以挖掘现有平台更强的性能潜力 [8][30]