技术突破 - 提出全新训练框架General-Reasoner,显著提升Qwen系列大模型的跨领域推理准确率近10% [1][2] - 在多个基准测试中超越GPT-4o,如General-Reasoner-Qwen3-14B在GPQA任务准确率达56.1%,TheoremQA达54.4% [15] - 强化学习(RL)被视为提升模型推理能力的关键手段,但现有方法如Zero-RL局限于数据丰富、答案结构清晰的领域 [3] 方法创新 - 构建全领域推理数据集WebInstruct-verified,覆盖物理、化学、金融等领域约23万个高质量可验证推理问题 [5][9] - 开发生成式答案验证器General-Verifier,以1.5B参数小型模型取代传统规则式验证,显著提高跨领域答案验证准确率 [13] - 数据筛选过程严格,剔除模糊或过于简单的问题,确保数据集质量 [12] 数据集构建 - 初始数据来源于WebInstruct,包含约500万个从StackExchange和教育门户网站爬取的自然指令 [6] - 通过Gemini-1.5-Pro筛选出100万个候选问题,再经Gemini-2.0-Flash标注元数据并平衡数据 [7] - 最终数据集涵盖23万道具有不同答案格式和主题的推理问题 [9] 性能表现 - General-Reasoner在12个基准测试中表现优异,Qwen2.5-7B-Base在MMLU-Pro准确率达58.9%,高于基础模型的47.7% [15] - 在数学推理任务中略优于专业框架SimpleRL [15] - 生成式验证器与Gemini-2.0-Flash高度一致,鲁棒性与泛化能力显著超越传统方法 [13] 未来方向 - 研究团队计划优化模型性能,扩展更多领域的高质量推理数据,提升验证器鲁棒性 [17] - 推动大语言模型在复杂现实任务中的广泛应用 [17]
超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
量子位·2025-06-04 08:17