long2short技术

搜索文档
AI“压力面”,DeepSeek性能暴跌近30% | 清华&上海AI Lab
量子位· 2025-07-19 13:15
大模型压力测试框架REST - 研究团队开发了REST框架,通过在一个prompt中同时抛出多个问题来模拟真实世界的多任务并行推理场景 [1][2] - 测试结果显示,即使是顶级模型如DeepSeek-R1,在压力测试下性能也大幅下降,在AIME24测试集上的准确率骤降29.1% [3][11] - 当前大模型评测存在三大痛点:区分度低、成本高昂、脱离现实 [5] 压力测试下的模型表现 - 在GSM8K、MATH500等7个主流推理基准上测试了超过30个参数从1.5B到671B的模型 [6] - 压力测试考察了模型的三项关键能力:上下文预算分配、跨问题干扰抵抗、动态认知负载管理 [7][8][9] - 不同参数模型性能差距明显,7B小模型在高压下崩得更快,32B大模型性能虽有下降但仍保持优势 [13] 模型性能分析 - 模型性能下降的主要原因是陷入"过度思考"陷阱,用long2short技术训练的模型表现更好 [15] - 一些"聪明"的模型如Nemotron-nano-7B和DeepSeek-R1会动态调整推理token分配 [17] - 表现优异的模型在压力下倾向于对早期问题进行更简洁的推理,为后续问题留出足够空间 [18][19] 测试结果数据 - DeepSeek-R1在AIME24基准上单题模式准确率81.66%,压力测试下降至52.49% [12] - 7B模型DS-R1-Distill-Qwen-7B在MATH500上单题准确率93.0%,压力测试下降至66.75% [12] - 32B模型Qwen-QwQ-32B在MATH500上单题准确率96.2%,压力测试下降至92.49% [12]