CompassVerifier

搜索文档
3B模型性能小钢炮,“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学
量子位· 2025-08-08 15:23
训练能力突飞猛进,验证答案的本事却成了拖后腿的短板。 当大模型把人类曾经的终极考题变成日常练习,AI的奔跑却悄悄瘸了腿—— 为此,上海AI Lab和澳门大学联合发布 通用答案验证模型CompassVerifier与评测集VerifierBench 。填补了Verifier领域没有建立 验证-> 提升->验证 的循环迭代体系的空白。 CompassVerifier团队 投稿 量子位 | 公众号 QbitAI △ 图片来自Openai前研究员Jason W ei,高难度数据集正在迅速被模型们"吞噬殆尽" 让AI在下半场中终于能迈开训练与验证的两条腿往前冲。 AI的下半场应该两条腿跑步 随着OpenAI o系列,DeepSeek R1以及马斯克新发的Grok-4等模型慢慢让"人类最后的考试"变成 "大模型的上一次考试",RL在推理模型上 的胜利貌似为AGI的道路添加了一块厚厚的基石。 强推理模型在人类顶级水平竞赛上大杀四方,屡次超过人类顶级专家的现在,我们不禁要思考,AI的上半场是不是已经结束了,下半场的游戏 又将如何开始。 最近,来自 清华姚班的姚顺雨 提出了他对AI下半场的思考: 那么接下来会发生什么?人工智能 ...