CompassVerifier - 财报，业绩电话会，研报，新闻 - Reportify

CompassVerifier

搜索文档

3B模型性能小钢炮，“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学

量子位· 2025-08-08 15:23

AI验证能力发展现状 - 大模型训练能力突飞猛进但验证答案能力成为发展短板[1] - AI在规则明确领域超越人类但在需要主观鉴赏的领域进展缓慢[11] - 当前大模型验证领域缺乏合理的迭代体系[15] AI发展范式转变 - AI下半场将从解决问题转向定义问题评估变得比训练更重要[6] - 训练AI解决任务的难易程度与任务可验证性成正比[8] - AI进化边界被结果验证的速度和客观性锁定[9] 验证技术瓶颈 - 传统方法依赖人工定制规则面对多步骤问题和复杂公式时容易失效[18] - 使用通用大模型作为验证器存在幻觉问题不同模型判罚尺度不一致[18] - 社区缺乏针对可验证答案的标准化高难度基准[30] CompassVerifier技术方案 - 基于OpenCompass框架从50多个大模型在15个数据集上的100余万份回复中筛选数据[21] - 采用多模型投票机制筛选简单样本借助DeepSeek-V3进行多提示词验证[22] - 通过错误驱动对抗性增强复杂公式增强和泛化性增强三种方式提升验证能力[23][24][25][27] 模型性能表现 - CompassVerifier-32B在VerifierBench上平均准确率达90.8% F1分数87.7%[35] - 3B轻量版本超越大规模通用模型展现极高参数效率[36] - 在数学推理任务中作为奖励模型使Qwen3-4B-Base在AIME24数据集性能提升18.5分[40] 应用前景 - 为数学知识问答科学推理等多领域强化学习训练提供技术支撑[44] - 未来可能实现模型自我验证和自我改进的循环迭代[45] - 验证器能力直接影响大模型发展速度是AGI道路上的关键环节[14]

Artificial Intelligence

AGI（通用人工智能）

Artificial Intelligence

CompassVerifier

Artificial Intelligence

AGI（通用人工智能）

Artificial Intelligence

CompassVerifier