基于排名的误差(RBE)
搜索文档
ICLR 2026 | 清华提出交叉熵分解:“误差熵”才是大模型规模定律真正的驱动项
机器之心· 2026-03-21 13:04
交叉熵规模定律的失效与分解 - 核心观点:交叉熵损失本身并不真正遵循规模定律,其在大模型上失效的原因是它作为一个“混合度量”,内部只有一部分(误差熵)严格遵循幂律缩放,而其他部分(自对齐和置信度)不随模型规模改善,形成了干扰噪声[2][6] - 来自清华大学的研究团队在ICLR 2026的论文中,通过将交叉熵分解为误差熵、自对齐和置信度三个部分,揭示了只有误差熵严格遵循幂律缩放,这为理解大模型训练规律提供了新视角[2][3] 交叉熵的全新分解方法 - 研究团队提出了一种基于排名的新指标——基于排名的误差,该指标衡量正确token在模型输出中的排名位置,比关注概率得分的交叉熵更稳健,不受后处理操作影响[6][8] - 基于RBE,交叉熵被数学分解为三项:误差熵(衡量RBE分布的香农熵)、自对齐(刻画模型概率得分与RBE分布的对齐程度)和置信度(反映模型输出概率得分的整体大小)[8] - 在训练过程中,三个成分呈现清晰的优化顺序:模型早期集中降低误差熵,之后才开始显著优化自对齐和置信度[10] 误差熵是唯一遵循规模定律的成分 - 研究者在Wikipedia、C4、The Pile的GitHub子集三个数据集上,对32个从数百万到数百亿参数的预训练模型进行了系统检验[20] - 结果显示,在对数-对数坐标下,只有误差熵呈现接近线性的下降趋势,与模型参数量之间存在稳健的幂律关系,而自对齐项在模型增大时没有改善甚至轻微上升,置信度项则波动较大,缺乏一致规律[21] - 定量拟合证实,误差熵的拟合优度在所有数据集上均显著高于交叉熵本身,说明交叉熵的缩放趋势主要由误差熵驱动[23] 规模定律失效的内在机制 - 在小模型中,误差熵占据了交叉熵总量的近90%,由于其遵循幂律,使得整体交叉熵表现出良好的幂律趋势[25] - 随着模型规模增大,误差熵占总损失的比例逐渐下降,而不遵循缩放规律的自对齐和置信度项占比相应上升,这些不缩放的成分像“噪声地板”,使得交叉熵偏离纯粹的幂律预测,模型越大,偏差越显著[25] 对行业实践与理论研究的启示 - 在训练层面,直接以误差熵作为训练信号或评估指标,可能比交叉熵更能准确反映模型能力的提升,从而指导更高效的训练策略和资源分配[27] - 在理论层面,该分解揭示模型规模的增长本质上提升的是排序能力,而非概率校准能力,这为理解大模型的能力边界和优化方向提供了新指引[27]