Token级控制
搜索文档
ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐
机器之心· 2026-02-11 11:00
研究背景与意义 - 在大模型后训练阶段,DPO已成为业界主流对齐方法,但其缺陷逐渐显现[2] - 主流方法面临两大核心难题:一是序列级的“二元对立”陷阱,粗粒度优化掩盖了高质量回复中的瑕疵Token,导致微调效果差甚至引发采样分布偏移[5];二是被偏差绑架的“伪”重要性,现有Token级评估方法易继承模型固有的“U型注意力偏差”,过度关注首尾而忽略中间核心语义[7] TI-DPO的核心机制 - 核心思想是为不同Token赋予不同权重,通过混合加权机制和三元组损失,精准识别并放大“关键Token”信号,同时抑制噪声,实现比传统DPO更准、更稳的对齐效果[9] - 混合加权机制结合了数据驱动与先验结构,通过计算Loss对每个Token Embedding的梯度范数来确定其对最终输出的贡献度作为权重,并引入高斯分布先验来对抗LLM常见的“U型注意力偏差”,强制模型关注中间语义核心[9][15] - 引入三元组损失,构建锚点(当前生成的中间回复)、正例(人类偏好的高质量回答)和负例(人类拒绝的低质量回答),优化目标是在语义空间中让生成的回复远离坏回答并贴近好回答[10][16] - 最终优化目标是混合加权损失与三元组损失的加权和[11] 实验结果 - 研究团队在Llama-3 (8B/3B)和Mistral-7B等多个主流基座模型上测试,对比了包括DPO、SimPO、GRPO等10多种对齐算法[13] - 综合能力评估显示,在Llama-3.1-8B-Instruct基座上,TI-DPO的综合平均分达到62.3,超过GRPO的62.1和DPO的60.8[14] - 在指令遵循、真实性和代码生成等细分任务上,TI-DPO的表现大幅超越了DPO、SimPO以及GRPO[17] - 消融实验表明,TI-DPO的所有核心组件(混合加权机制、高斯先验和三元组损失)对模型性能都至关重要,移除任意模块均会导致通用能力、数学推理及代码生成等各项指标显著下降[20] - 具体消融实验数据:完整TI-DPO方法在通用能力得分为65.4,数学80.7,推理34.6,代码33.0,指令遵循63.5,可靠性86.8;移除三元组损失后各项得分下降;使用均匀权重或随机权重也导致性能下降;移除高斯先验或使用Softmax先验同样使性能劣于完整方法[21] 案例与贡献总结 - 通过医疗咨询案例的可视化热力图证明,TI-DPO能精准识别关键Token,例如在优选回复中给“seek medical attention”和“promptly”分配高权重,在非优选回复中精准抓取“painkillers casually”等高风险建议并赋予高权重加以惩罚[22][23][25] - TI-DPO推动大模型对齐从粗放的序列级优化向精细的Token级控制转变,实验结果表明其在指令遵循、真实性与代码生成等任务上相比基线取得了稳定性能提升,验证了提升数据利用“颗粒度”是增强模型能力的有效路径[25] - 该方法为后续RLHF研究提供了新方向,有望推动大模型向着更精准、更可控的方向进化[25]