九成以上模型止步白银段位,只有3个铂金!通用AI下半场评测标准来了
机器之心·2025-05-21 08:33
引言:从"解题"到"定义问题",评测引领AI下半场 OpenAI 研究员姚顺雨最近在其博文《 AI 下半场 》中提出了振聋发聩的观点:人工智能的发展正步入一个全新的阶段。在上半场,我们习惯于专注模型架构与训 练方法的突破;而如今,下半场的关键在于如何评估模型的真实智能。"接下来,AI 的重点将从解决问题转向定义问题。在这个新时代,评估的重要性将超过训 练"。换言之,我们需要像产品经理那样重新思考 应该让 AI 解决什么问题 、以及如何衡量"解决得好" 。过去,Transformer、AlexNet、GPT-4 等里程碑工作让算 法和模型大放异彩;但在下半场,比拼的不再是谁的模型更大、更强,而是谁能 定义出更有效的评测标准 ,推动 AI 朝着对人类真正有用的方向演进。 这样的理念正在获得实践的支撑。近期,一支来自新加坡国立大学(NUS)和南洋理工大学(NTU)等机构领衔的团队的研究,围绕了通用多模态模型的评估而 非训练展开。这篇题为《On Path to Multimodal Generalist: General-Level and General-Bench》的论文提出了全新的" 通 才智 能 "评测框架, ...