Workflow
大模型评估
icon
搜索文档
大模型作为评估者的「偏好」困境:UDA实现无监督去偏对齐
机器之心· 2025-11-28 08:51
文章核心观点 - 当前大模型评估体系存在严重的“自我偏好偏差”问题,即模型在作为评估者时会系统性偏爱自己生成的答案,导致评估结果不公平[2] - 智谱AI提出的无监督去偏对齐方法UDA,通过将去偏问题转化为动态校准优化的序列学习问题,有效解决了上述偏差问题[7][13] - UDA方法无需人工标注,通过无监督共识驱动训练,在ArenaHard数据集上实现了评估方差减少59%和人类对齐度提升24.7%的显著效果[20][23][24] 现有LLM评判系统问题 - 现有系统如Chatbot Arena采用Elo评分机制,面临自我偏好固化、异质性偏差和静态评分缺陷三大挑战[4] - 自我偏好偏差幅度从-38%到+90%不等,导致不同裁判模型评分标准差最高达158.5分[2][5] - 传统Elo使用固定K因子,无法区分关键对决与平庸比较,小样本下信噪比极低[5] UDA方法框架 - 将成对评估建模为实例级自适应过程,通过轻量级网络动态生成调整参数,输出校准后的Elo更新[10] - 特征工程涵盖高维特征、标量特征和自我感知特征,这些特征无需人工标注,完全从响应分布中自动构建[11][12] - 训练目标采用多任务损失函数,驱动各裁判轨迹向共识收敛、保持排名相关性并强化集体一致性[14] 理论创新 - 核心理论洞见是对齐多样化裁判的共识将降低系统总偏差,通过凸组合收缩实现集体方差缩减[16][17] - 即使共识本身有噪声,减少离散度仍能提升整体可信度,为无监督对齐提供了理论动机[18] 实验结果 - 在ArenaHard数据集上,UDA将平均裁判间标准差从158.5降至64.8,减少59%[23] - 与人类评估的相关性系数从0.651提升至0.812,提升24.7%[23][24] - 在零样本迁移中未经重新训练仍实现63.4%的方差缩减,证明领域无关的去偏能力[23] - 消融实验显示自我感知特征至关重要,移除后人类相关性暴跌至0.510[23][24] 技术影响 - 评判校准从提示工程问题转变为可学习的问题,模型能在交互中自主演化出公平评分策略[25] - 该框架有效提升了低质量评委的表现,使其接近高质量评委水平,显著增强了评估的鲁棒性、可复现性与人类对齐度[25]
3位00后,估值700亿
36氪· 2025-10-28 20:09
公司融资与估值 - 公司完成2.5亿美元(约合人民币18亿元)新融资,估值达到100亿美元(约合人民币710亿元),是其今年2月20亿美元估值的5倍 [1] - 公司成立于2023年,至今合计融资额达3.5亿美元(约合人民币25亿元) [1] - 新融资由风投公司Felicis领投,Benchmark、General Catalyst和Robinhood Ventures等风投公司参投 [3] 业务发展与财务表现 - 公司核心业务为AI招聘,通过AI筛选简历并为候选人快速匹配岗位,后基于庞大人才网络拓展至数据标注和大模型评估业务 [3][8] - 公司17个月营收运行率从1美元增长至5亿美元(约合人民币36亿元) [1] - 截至今年2月,公司年度经常性收入已达到7000万美元(约合人民币4.97亿元) [3] - 公司管理的专家总数达30000名,所有专家的日薪总计超过150万美元(约合人民币1065万元) [3][9] 创始团队与公司背景 - 公司由三位00后创始人于2023年大二辍学后创立,他们分别是CTO Adarsh Hiremath(哈佛大学计算机科学专业)、CEO Brendan Foody和COO Surya Midha(均来自乔治城大学,分别为经济学和外交专业) [1][4] - CEO Brendan Foody在2021年曾创立云基础设施公司Serosin,成功将高性能计算机使用成本降低90% [4] 技术平台与运营模式 - 企业客户通过自然语言描述岗位需求,公司AI工具可在几秒内对数十万份简历、作品集、社交平台及代码库进行深度语义搜索以匹配最佳候选人 [5] - 公司首创AI生产力指数(APEX),用于评估AI模型执行具有经济价值知识工作的能力,涵盖投资银行、法律、咨询和医疗四个专业领域 [10] - APEX v1.0包含200个案例,由约100名顶级专家团队构建,专业人员完成其中任务平均需要3.5小时 [10][11] 市场竞争与行业动态 - 竞争对手Scale AI被Meta以140亿美元收购49%股份后,其部分客户和员工转向公司,促使公司收入翻倍 [14] - Scale AI已起诉公司涉嫌窃取商业机密,案件目前尚无定论 [14] - OpenAI发布的医疗大模型测试评估集HealthBench采用了公司的APEX体系,GPT-5在该评估中获得64.2%的最高分 [11]