UDA
搜索文档
大模型作为评估者的「偏好」困境:UDA实现无监督去偏对齐
机器之心· 2025-11-28 08:51
文章核心观点 - 当前大模型评估体系存在严重的“自我偏好偏差”问题,即模型在作为评估者时会系统性偏爱自己生成的答案,导致评估结果不公平[2] - 智谱AI提出的无监督去偏对齐方法UDA,通过将去偏问题转化为动态校准优化的序列学习问题,有效解决了上述偏差问题[7][13] - UDA方法无需人工标注,通过无监督共识驱动训练,在ArenaHard数据集上实现了评估方差减少59%和人类对齐度提升24.7%的显著效果[20][23][24] 现有LLM评判系统问题 - 现有系统如Chatbot Arena采用Elo评分机制,面临自我偏好固化、异质性偏差和静态评分缺陷三大挑战[4] - 自我偏好偏差幅度从-38%到+90%不等,导致不同裁判模型评分标准差最高达158.5分[2][5] - 传统Elo使用固定K因子,无法区分关键对决与平庸比较,小样本下信噪比极低[5] UDA方法框架 - 将成对评估建模为实例级自适应过程,通过轻量级网络动态生成调整参数,输出校准后的Elo更新[10] - 特征工程涵盖高维特征、标量特征和自我感知特征,这些特征无需人工标注,完全从响应分布中自动构建[11][12] - 训练目标采用多任务损失函数,驱动各裁判轨迹向共识收敛、保持排名相关性并强化集体一致性[14] 理论创新 - 核心理论洞见是对齐多样化裁判的共识将降低系统总偏差,通过凸组合收缩实现集体方差缩减[16][17] - 即使共识本身有噪声,减少离散度仍能提升整体可信度,为无监督对齐提供了理论动机[18] 实验结果 - 在ArenaHard数据集上,UDA将平均裁判间标准差从158.5降至64.8,减少59%[23] - 与人类评估的相关性系数从0.651提升至0.812,提升24.7%[23][24] - 在零样本迁移中未经重新训练仍实现63.4%的方差缩减,证明领域无关的去偏能力[23] - 消融实验显示自我感知特征至关重要,移除后人类相关性暴跌至0.510[23][24] 技术影响 - 评判校准从提示工程问题转变为可学习的问题,模型能在交互中自主演化出公平评分策略[25] - 该框架有效提升了低质量评委的表现,使其接近高质量评委水平,显著增强了评估的鲁棒性、可复现性与人类对齐度[25]