核心观点 - 完美的AI评测体系等同于通用人工智能(AGI),当评测不再重要时AGI才真正实现[3][20][21] - 当前AI评测体系存在数据污染、原子化能力评测局限性和主体危机三大核心问题[5][7][10] - 行业需要建立"以人为中心"的动态评测框架,通过EDGE技术路径实现训评一体[12][13][16] 评测体系现状与问题 数据污染 - 大公司普遍将评测数据集纳入训练集以提高分数,导致评测失去诊断价值[5][6] - Chatbot Arena存在系统性漏洞,厂商可通过秘密内测和用户偏好数据过度拟合[6] 原子化能力局限性 - 当前评测将智能拆解为数学推理等独立能力,但无法区分模型真实能力边界与提示优化效果[8] - 具身智能领域存在仿真环境与真实场景巨大差距(仿真成功率100% vs 真实世界5%)[9] 主体危机 - 企业自评存在利益冲突,学术界缺乏长期维护资源,需要新型中立机构主导[10] - 评测领域呈现碎片化态势,大量维度指标因论文创新需求被提出但无人维护[9] 解决方案与创新框架 以人为中心评测 - 采用统计学方法聚合用户主观体验(QoE),针对不同受众群体定制评测[13] - 建立超10万题高质量内部题库,采用季度性逐步开源策略防止污染[15] EDGE技术路径 - 四大特征:Evolving(演进)、Dynamic(动态)、Granular(粒度)、Ecosystem(生态)[13] - 三大评测支柱:信息质量、问题解决能力、交互体验[14] 训评一体机制 - 开发与人类偏好对齐的"AI裁判"作为奖励模型指导训练优化[17] - 提出AI-45°平衡律,要求能力与安全性同步提升[17] 行业影响与愿景 - 司南团队目标成为智能时代度量衡,引导行业从刷分竞赛转向价值创造[22] - 构建终极评测体系是通往AGI的核心路径,评测的消亡将标志AGI实现[21][24]
上海交大/上海AI Lab翟广涛:当评测不再重要,AGI就实现了
机器之心·2025-07-15 11:20