Workflow
Token感知的推理时表征编辑
icon
搜索文档
大模型“精细化”对齐,真实性提升25.8%刷新SOTA!token级精准编辑,无需训练即插即用
量子位· 2025-09-27 12:46
核心观点 - 提出Token-Aware Editing (TAE)方法 一种无需训练的推理时表征编辑技术 通过token级精细化干预显著提升大模型对齐能力 在TruthfulQA任务上真实性指标比基线提升25.8个百分点[1][3][13][15] 方法创新 - 突破传统句子级编辑局限 首次系统性解决token间错位差异问题 包含互信息引导图聚合(MIG)和错位感知自适应干预(MAI)两大核心模块[6][8][10][11] - MIG模块通过构建token关系图和多层次信息聚合 增强激活值表征能力 使对齐方向探测准确率提升[10][11] - MAI模块实现动态强度调整 根据token错位风险自适应计算干预强度 高风险token强干预(如毒性概率从0.41降至0.05) 低风险token弱干预[11][12][16] 性能表现 - 在TruthfulQA数据集上True*Info得分达87.8% 较最优编辑方法SEA(73.2%)提升14.6个百分点 较基线(62.0%)提升25.8个百分点[14][15] - 去毒任务中毒性概率(TP)从基线0.41降至0.05 降幅近90% 显著优于专用去毒方法DESTIN(0.13)[16] - 公平性任务中刻板印象分数从64.8%降至50.3% 接近理想无偏见状态(50%)[16] - 在Llama2系列、Alpaca-7B、Mistral-7B等不同规模模型上均保持性能增益[17] 应用前景 - 可广泛应用于对话系统、内容审核、偏见消除等场景 支持多维度对齐(如真实性与无害性同步优化)[1][5] - 具备即插即用特性 未来可与SFT、RLHF等训练方法结合推动模型安全发展[3][5]