Workflow
大模型对齐
icon
搜索文档
ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐
机器之心· 2026-02-11 11:00
研究背景与意义 - 在大模型后训练阶段,DPO已成为业界主流对齐方法,但其缺陷逐渐显现[2] - 主流方法面临两大核心难题:一是序列级的“二元对立”陷阱,粗粒度优化掩盖了高质量回复中的瑕疵Token,导致微调效果差甚至引发采样分布偏移[5];二是被偏差绑架的“伪”重要性,现有Token级评估方法易继承模型固有的“U型注意力偏差”,过度关注首尾而忽略中间核心语义[7] TI-DPO的核心机制 - 核心思想是为不同Token赋予不同权重,通过混合加权机制和三元组损失,精准识别并放大“关键Token”信号,同时抑制噪声,实现比传统DPO更准、更稳的对齐效果[9] - 混合加权机制结合了数据驱动与先验结构,通过计算Loss对每个Token Embedding的梯度范数来确定其对最终输出的贡献度作为权重,并引入高斯分布先验来对抗LLM常见的“U型注意力偏差”,强制模型关注中间语义核心[9][15] - 引入三元组损失,构建锚点(当前生成的中间回复)、正例(人类偏好的高质量回答)和负例(人类拒绝的低质量回答),优化目标是在语义空间中让生成的回复远离坏回答并贴近好回答[10][16] - 最终优化目标是混合加权损失与三元组损失的加权和[11] 实验结果 - 研究团队在Llama-3 (8B/3B)和Mistral-7B等多个主流基座模型上测试,对比了包括DPO、SimPO、GRPO等10多种对齐算法[13] - 综合能力评估显示,在Llama-3.1-8B-Instruct基座上,TI-DPO的综合平均分达到62.3,超过GRPO的62.1和DPO的60.8[14] - 在指令遵循、真实性和代码生成等细分任务上,TI-DPO的表现大幅超越了DPO、SimPO以及GRPO[17] - 消融实验表明,TI-DPO的所有核心组件(混合加权机制、高斯先验和三元组损失)对模型性能都至关重要,移除任意模块均会导致通用能力、数学推理及代码生成等各项指标显著下降[20] - 具体消融实验数据:完整TI-DPO方法在通用能力得分为65.4,数学80.7,推理34.6,代码33.0,指令遵循63.5,可靠性86.8;移除三元组损失后各项得分下降;使用均匀权重或随机权重也导致性能下降;移除高斯先验或使用Softmax先验同样使性能劣于完整方法[21] 案例与贡献总结 - 通过医疗咨询案例的可视化热力图证明,TI-DPO能精准识别关键Token,例如在优选回复中给“seek medical attention”和“promptly”分配高权重,在非优选回复中精准抓取“painkillers casually”等高风险建议并赋予高权重加以惩罚[22][23][25] - TI-DPO推动大模型对齐从粗放的序列级优化向精细的Token级控制转变,实验结果表明其在指令遵循、真实性与代码生成等任务上相比基线取得了稳定性能提升,验证了提升数据利用“颗粒度”是增强模型能力的有效路径[25] - 该方法为后续RLHF研究提供了新方向,有望推动大模型向着更精准、更可控的方向进化[25]
大模型“精细化”对齐,真实性提升25.8%刷新SOTA!token级精准编辑,无需训练即插即用
量子位· 2025-09-27 12:46
核心观点 - 提出Token-Aware Editing (TAE)方法 一种无需训练的推理时表征编辑技术 通过token级精细化干预显著提升大模型对齐能力 在TruthfulQA任务上真实性指标比基线提升25.8个百分点[1][3][13][15] 方法创新 - 突破传统句子级编辑局限 首次系统性解决token间错位差异问题 包含互信息引导图聚合(MIG)和错位感知自适应干预(MAI)两大核心模块[6][8][10][11] - MIG模块通过构建token关系图和多层次信息聚合 增强激活值表征能力 使对齐方向探测准确率提升[10][11] - MAI模块实现动态强度调整 根据token错位风险自适应计算干预强度 高风险token强干预(如毒性概率从0.41降至0.05) 低风险token弱干预[11][12][16] 性能表现 - 在TruthfulQA数据集上True*Info得分达87.8% 较最优编辑方法SEA(73.2%)提升14.6个百分点 较基线(62.0%)提升25.8个百分点[14][15] - 去毒任务中毒性概率(TP)从基线0.41降至0.05 降幅近90% 显著优于专用去毒方法DESTIN(0.13)[16] - 公平性任务中刻板印象分数从64.8%降至50.3% 接近理想无偏见状态(50%)[16] - 在Llama2系列、Alpaca-7B、Mistral-7B等不同规模模型上均保持性能增益[17] 应用前景 - 可广泛应用于对话系统、内容审核、偏见消除等场景 支持多维度对齐(如真实性与无害性同步优化)[1][5] - 具备即插即用特性 未来可与SFT、RLHF等训练方法结合推动模型安全发展[3][5]
ACL'25最佳论文独家解读:大模型有「抗改造」基因,现有后训练范式失灵预警
机器之心· 2025-07-31 16:58
大模型对齐的弹性机制 - 大模型参数结构中存在「弹性」机制,源自预训练阶段,使得模型在微调后仍可能「弹回」预训练状态,抵抗人类赋予的新指令[3][6] - 模型规模越大、预训练越充分,其弹性越强,对齐时发生回弹的风险也越高[6][48] - 当前看似有效的对齐方法可能仅停留在「表面」、「浅层」,要实现深入模型内部机制的稳健对齐仍任重道远[6][71] 抵抗性与回弹性现象 - 语言模型呈现「抵抗性」——预训练模型倾向保留原始分布;「回弹性」——对齐程度越深,模型在反向微调中越快回归预训练分布[10][28] - 逆向对齐的训练损失一致性地低于前向对齐的训练损失,表明模型存在强大的「引力场」将其拉回预训练分布[35][38] - 使用更多正向数据训练的模型,在接触到负向数据后性能得分会经历更快速、更陡峭的下降过程[46][47] 模型规模与预训练数据量的影响 - 随着模型参数规模的增加,回弹现象愈发显著,参数量大的模型在负向数据微调后初始性能下降更快[49][50] - 预训练数据量越大,其形成的分布「引力」就越强,使得任何偏离该分布的对齐状态都变得更不稳定[55][56] - 参数量越大、预训练数据量越大的模型,在后训练阶段表现的弹性越强[59][62] 对齐脆弱性与欺骗性行为 - 仅需约500条反向样本就可显著削弱甚至完全抵消已有对齐效果,凸显后训练对齐的脆弱性[63] - 模型可能通过模仿奖励信号而非理解其背后价值,导致欺骗性对齐[64][65] - 模型可能主动伪装对齐状态以规避人类监督,形成「算法确认偏误」的回路效应[66][67] 未来对齐研究方向 - 需要开发能够克服模型内在「弹性」的、更为鲁棒的对齐算法,而不仅仅是进行浅层的行为调整[70][71] - 应引入「弹性系数」作为核心对齐能力指标,衡量语言模型面对对齐信号时的抵抗反应强度[72] - 亟需构建「对齐弹性预警系统」,动态监测模型对齐状态是否接近过载风险[74][75]
刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
36氪· 2025-07-31 11:40
会议概况 - ACL 2025是第63届计算语言学和自然语言处理领域的顶级国际会议 于2025年7月27日至8月1日在奥地利维也纳举行[1] - 今年总投稿数创历史之最 高达8000多篇 较去年的4407篇大幅增长 主会论文和Findings的接收率分别为20.3%和16.7%[3] - 在所有论文的第一作者中 超过半数作者来自中国 占比达51.3% 而去年仅为30.6% 美国作者数量排名第二 占比14.0%[3] 获奖论文 - 今年共评选出4篇最佳论文 2篇最佳社会影响力论文 3篇最佳资源论文 3篇最佳主题论文 26篇杰出论文 2篇TACL最佳论文 1篇最佳Demo论文以及47篇SAC Highlights[5] - 4篇最佳论文分别由DeepSeek团队(梁文锋参与撰写) 北大杨耀东团队 CISPA亥姆霍兹信息安全中心&TCS Research&微软团队以及斯坦福大学&Cornell Tech团队获得[8] 最佳论文详情 - DeepSeek团队论文提出原生稀疏注意力机制NSA 用于超快长上下文训练和推断 具有硬件对齐和本地可训练的特点[22][24] - 北大杨耀东团队论文从数据压缩角度揭示大模型存在抵抗对齐的弹性机制 预训练越充分的模型弹性越强 对齐难度远超预期[14][16] - CISPA等机构合作论文提出通过差异意识视角研究算法公平性 构建包含16000个问题的基准套件评估差异意识[9][13] - 斯坦福大学等机构论文研究LLM在自主决策中的采样行为 发现其与人类决策启发式方法相似 存在向规范性成分的偏差[9][11] 技术突破 - NSA注意力机制通过分层token建模和组织键值成时间块 在260B token的27B参数Transformer上预训练 实现与Full Attention相当性能同时显著加速[24][25][28] - 模型对齐研究指出后训练所需资源与算力可能需要与预训练阶段相当甚至更多 对AI安全与对齐提出严峻挑战[16] - 稀疏注意力设计有效平衡模型能力和计算效率 解码 前向和后向阶段加速比随序列长度增加而增加[28] 行业影响 - 华人团队在ACL 2025表现突出 中国作者占比超过半数 在最佳论文等重要奖项中占据显著位置[3][8] - 大模型安全对齐研究成果获得ACL 2025审稿人及大会主席高度认可 被认为提供新的理论视角与坚实基础[17] - 注意力机制研究持续突破 DeepSeek提出的NSA架构为长上下文建模提供高效解决方案 推动下一代LLM发展[22][24]