AI Evaluation Framework

搜索文档
深度|清华姚班学霸、OpenAI姚顺雨:AI下半场从“算法竞赛”转向“效用定义”,重构评估框架,将技术能力转化为真实世界价值
Z Potentials· 2025-04-25 11:05
AI发展阶段划分 - 当前处于AI发展的中场阶段 上半场以模型创新和基准测试为核心 下半场将转向定义问题和现实效用[2] - 上半场标志性成果包括DeepBlue AlphaGo GPT-4等 通过搜索 深度强化学习 模型规模化和推理等根本性创新实现突破[2] - 下半场将从"解决问题"转向"定义问题" 评估比训练更重要 需要产品经理式思维方式[4] 上半场特征分析 - 核心在于构建新模型和方法 评估与基准测试处于次要地位 方法比任务更具挑战性和通用性[8] - 最具影响力论文如Transformer AlexNet GPT-3的共同点是提出训练更优模型的根本性突破 并在基准测试展示显著性能提升[5] - Transformer论文引用量超过16万 而其基准WMT'14仅约1300次引用 显示方法创新价值远高于基准测试[5] 突破性技术配方 - 有效配方包含三大要素:大规模语言预训练 规模化(数据和算力) 推理与行动概念[9] - 强化学习长期关注算法而忽视环境和先验知识 深度强化学习时代证明环境重要性远超预期[15] - 语言预训练提供关键先验知识 使模型具备泛化能力 这是OpenAI早期尝试未能突破的核心原因[15] 下半场范式转移 - 现有配方已产业化基准测试提升 新方法仅能带来5%改进 而下一代模型可提升30%[20] - 需要重新思考评估框架 打破自动执行和i.i.d.等传统假设 开发人类参与的长期记忆型评估[23][26] - 下半场重点是将智能转化为实用产品 可能创造数万亿价值 需要筛选并突破现有方法局限[26] 技术演进路径 - 人类通过思考实现任务泛化 将推理作为特殊"行动"可充分利用语言预训练先验[16] - 增加推理动作空间使Agent能灵活分配计算资源 这是实现泛化的关键机制[18] - 讽刺性发现:强化学习算法重要性低于先验和环境 这与数十年研究重点完全相反[18]