基准测试揭秘大模型“字数危机”：26个模型长文本生成普遍拉胯，最大输出长度过度宣传

LIFEBENCH基准测试 - 提出全新基准测试集LIFEBENCH，系统性评估大语言模型在长度指令遵循方面的表现，覆盖从短文本到长文本的多种长度范围、任务类型和语言 [1][2][4] - 设计三种长度控制方法：等于（Equal To）、不超过（At Most）、至少（At Least），并覆盖短文本（<100字）、中等长度（100-2000字）和长文本（>2000字）任务 [4][6] - 包含四类自然语言生成任务：问答、摘要、推理和创意生成，同时支持中文和英文任务，以全面评估模型能力 [6] 评测指标 - 提出长度偏差（Length Deviation, LD）指标，衡量生成文本长度与目标长度的差异 [7] - 设计长度评分（Length Score, LS）指标，综合评价模型对长度指令的遵循能力 [8] - 两项指标提供了比简单字数匹配更细致的分析维度 [9] 模型表现 - 在26个主流大语言模型中，23个模型的长度评分低于60分，仅少数模型如o3-mini、Claude-Sonnet-Thinking和Gemini-2.5-Pro达到75.4分、61.3分和60分 [10] - 模型在"不超过"和"至少"指令下表现较好，19个模型在"不超过"指令下评分超过90分，6个模型在"至少"指令下表现优异 [10] - 长文本生成任务中所有模型表现显著下降，评分普遍低于40分 [11][12] 任务与语言影响 - 模型在不同任务中表现差异显著，摘要任务评分最低，创意生成任务评分最高 [13] - 几乎所有模型在中文任务中的表现劣于英文任务，且在处理中文指令时出现明显"过度生成"现象 [14] 模型瓶颈 - 缺乏准确的长度感知能力，存在短输出高估和长输出低估现象 [20] - 对输入长度敏感，长输入场景下表现下降，特别是在摘要任务中 [22] - 采用懒惰生成策略，包括提前终止和拒绝生成，目标长度超过8192字时拒绝生成比例显著上升 [23] 改进尝试与局限性 - 动态校准方法在短文本任务中相对有效，但在长文本场景中耗时耗力且效果不佳 [25] - 预训练阶段长文本数据覆盖不足导致模型学到"偷懒策略"，后训练可通过预规划策略改进 [32] 隐藏问题 - 模型生成质量随长度增加而下降，中等长度（1024-2048字）表现最佳，长文本（4096-8192字）质量显著滑坡 [27][28][29] - 在要求生成特定格式时表现进一步恶化，复杂格式让模型更容易出错 [30] - 长文本生成中EoS信号异常，模型倾向于提前终止生成 [31] 总结与展望 - 当前大语言模型在长度指令执行上存在显著问题，尤其在长文本限制下表现不佳 [33] - 未来需要更优的训练策略和更全面的评估体系来提升模型对长度指令的执行能力 [33]