Workflow
训评一体
icon
搜索文档
上海交大/上海AI Lab翟广涛:当评测不再重要,AGI就实现了
机器之心· 2025-07-15 11:20
核心观点 - 完美的AI评测体系等同于通用人工智能(AGI),当评测不再重要时AGI才真正实现[3][20][21] - 当前AI评测体系存在数据污染、原子化能力评测局限性和主体危机三大核心问题[5][7][10] - 行业需要建立"以人为中心"的动态评测框架,通过EDGE技术路径实现训评一体[12][13][16] 评测体系现状与问题 数据污染 - 大公司普遍将评测数据集纳入训练集以提高分数,导致评测失去诊断价值[5][6] - Chatbot Arena存在系统性漏洞,厂商可通过秘密内测和用户偏好数据过度拟合[6] 原子化能力局限性 - 当前评测将智能拆解为数学推理等独立能力,但无法区分模型真实能力边界与提示优化效果[8] - 具身智能领域存在仿真环境与真实场景巨大差距(仿真成功率100% vs 真实世界5%)[9] 主体危机 - 企业自评存在利益冲突,学术界缺乏长期维护资源,需要新型中立机构主导[10] - 评测领域呈现碎片化态势,大量维度指标因论文创新需求被提出但无人维护[9] 解决方案与创新框架 以人为中心评测 - 采用统计学方法聚合用户主观体验(QoE),针对不同受众群体定制评测[13] - 建立超10万题高质量内部题库,采用季度性逐步开源策略防止污染[15] EDGE技术路径 - 四大特征:Evolving(演进)、Dynamic(动态)、Granular(粒度)、Ecosystem(生态)[13] - 三大评测支柱:信息质量、问题解决能力、交互体验[14] 训评一体机制 - 开发与人类偏好对齐的"AI裁判"作为奖励模型指导训练优化[17] - 提出AI-45°平衡律,要求能力与安全性同步提升[17] 行业影响与愿景 - 司南团队目标成为智能时代度量衡,引导行业从刷分竞赛转向价值创造[22] - 构建终极评测体系是通往AGI的核心路径,评测的消亡将标志AGI实现[21][24]
新疆绘就一季度就业“上扬曲线”
搜狐财经· 2025-05-07 12:48
就业数据与政策支持 - 新疆一季度实现城镇新增就业13.01万人,同比增长2.83% [1] - 和田地区落实就业补贴7.76万人次8936.61万元,伊犁州落实4369万元惠及4.3万人次 [3] - 新疆人社部门通过数字化手段实现政策"直补快办",例如纺织服装企业社保补贴624人次61.5万元 [3] 产业发展与人才引进 - 一季度新疆新设经营主体9.51万户,83个自治区级重点项目集中开工 [2] - 中国科学院新疆理化技术研究所引进12名高层次人才,涉及计算机、材料科学等领域 [5] - 新疆实施"2+5"重点人才计划,设立100亿元人才发展基金吸引高层次人才 [5] 跨区域就业协作 - 一季度新疆组织1281场招聘会,提供44.47万个岗位,参与企业2.99万家 [7] - 塔城地区赴四川、贵州等地开展劳务协作,哈密市设立"豫哈就业服务专区"实现跨省互通 [8] - 新疆通过农民工工资支付监控预警平台保障跨省务工人员权益,如四川籍农民工带动同乡就业 [8] 职业技能培训 - 新疆推行"一培双证"模式,如巴州将特种设备操作证与职业技能等级认证结合 [11][12] - 一季度开展职业技能培训30.49万人次,完成全年目标的50.82% [13] - 准东现代产业学院采用"订单化"培养模式,2023-2024年累计培养2465名学生定向就业 [15] 企业用工案例 - 新疆昆仑麒麟信息科技通过精准招聘吸纳38名高校毕业生,充实5个项目组 [6] - 巴州鑫鸣发钢化玻璃厂通过"一培双证"解决叉车工短缺问题,员工月收入超5000元 [12][13] - 纺织厂借助政策补贴扩大用工规模,600余名工人实现稳定就业 [3]