基于排名的误差（RBE） - 财报，业绩电话会，研报，新闻

基于排名的误差（RBE）

搜索文档

ICLR 2026 | 清华提出交叉熵分解：“误差熵”才是大模型规模定律真正的驱动项

机器之心· 2026-03-21 13:04

交叉熵规模定律的失效与分解 - 核心观点：交叉熵损失本身并不真正遵循规模定律，其在大模型上失效的原因是它作为一个“混合度量”，内部只有一部分（误差熵）严格遵循幂律缩放，而其他部分（自对齐和置信度）不随模型规模改善，形成了干扰噪声[2][6] - 来自清华大学的研究团队在ICLR 2026的论文中，通过将交叉熵分解为误差熵、自对齐和置信度三个部分，揭示了只有误差熵严格遵循幂律缩放，这为理解大模型训练规律提供了新视角[2][3] 交叉熵的全新分解方法 - 研究团队提出了一种基于排名的新指标——基于排名的误差，该指标衡量正确token在模型输出中的排名位置，比关注概率得分的交叉熵更稳健，不受后处理操作影响[6][8] - 基于RBE，交叉熵被数学分解为三项：误差熵（衡量RBE分布的香农熵）、自对齐（刻画模型概率得分与RBE分布的对齐程度）和置信度（反映模型输出概率得分的整体大小）[8] - 在训练过程中，三个成分呈现清晰的优化顺序：模型早期集中降低误差熵，之后才开始显著优化自对齐和置信度[10] 误差熵是唯一遵循规模定律的成分 - 研究者在Wikipedia、C4、The Pile的GitHub子集三个数据集上，对32个从数百万到数百亿参数的预训练模型进行了系统检验[20] - 结果显示，在对数-对数坐标下，只有误差熵呈现接近线性的下降趋势，与模型参数量之间存在稳健的幂律关系，而自对齐项在模型增大时没有改善甚至轻微上升，置信度项则波动较大，缺乏一致规律[21] - 定量拟合证实，误差熵的拟合优度在所有数据集上均显著高于交叉熵本身，说明交叉熵的缩放趋势主要由误差熵驱动[23] 规模定律失效的内在机制 - 在小模型中，误差熵占据了交叉熵总量的近90%，由于其遵循幂律，使得整体交叉熵表现出良好的幂律趋势[25] - 随着模型规模增大，误差熵占总损失的比例逐渐下降，而不遵循缩放规律的自对齐和置信度项占比相应上升，这些不缩放的成分像“噪声地板”，使得交叉熵偏离纯粹的幂律预测，模型越大，偏差越显著[25] 对行业实践与理论研究的启示 - 在训练层面，直接以误差熵作为训练信号或评估指标，可能比交叉熵更能准确反映模型能力的提升，从而指导更高效的训练策略和资源分配[27] - 在理论层面，该分解揭示模型规模的增长本质上提升的是排序能力，而非概率校准能力，这为理解大模型的能力边界和优化方向提供了新指引[27]