Workflow
推理模型综合测评报告 2025
2025-05-29 17:30

报告行业投资评级 未提及相关内容 报告的核心观点 - 推理模型对幻觉有一定控制能力,但多步复杂推理仍是短板,各能力维度在「得分率 - 思考时长」指标间未形成稳定均衡 [22][25] - 推理模型具有较好归纳推理能力,长文本推理能力仍待提升,在代数领域表现最佳,几何理解稍显欠缺 [27][31] - 推理模型对话意图识别基本达标,但缺乏对汉字字形结构的理解,在解决各科学领域复杂问题上能力短板明显 [42][47] - 推理模型对事实错误、上下文幻觉和污染测试有一定控制能力,但引用测试幻觉问题严重且更隐蔽 [54] 根据相关目录分别进行总结 推理模型发展阶段和发展因素分析 - 推理模型发展的前置因素包括推理时计算拓展和基于可验证奖励的强化学习,前者演变出深度思维提示、多链多数表决、路径搜索三条路径,后者能帮助大模型掌握长链推理 [4][7] - 受两大技术范式驱动,从2024年Q4到2025年Q2,多款推理模型相继上线,全球厂商进入推理模型密集发布期 [10] - 推理模型带来能力提升和业务期望,将大模型从单纯内容生成器升级为「可验证的逻辑执行器」,打开更多新商业机会 [13] 推理模型测评体系和结果分析 - 推理模型测评体系有题目原创性、分数可量化、难度梯度设计三大原则,分为逻辑推理、数学推理、多步推理、语言推理、幻觉控制5个维度 [16][19] - 本次测评选取多个推理模型,题库共300题,各维度平均得分率分别为幻觉控制74.83%、数学推理72.66%、逻辑推理72.09%、语言推理62.13%、多步推理46.04% [20][21][22] - 各能力维度在「得分率 - 思考时长」指标间未形成稳定均衡,推理模型在不同细分领域表现有差异 [25] 推理模型未来展望 - 视觉推理能力先行,多模态认知突破加速世界模型构建,期待视觉推理从静态向动态演进并与实际动作结合 [66] - 推理模型在自主规划、可靠执行、容错调整能力维度同步跃升,将图像和工具使用融入推理过程,提升推理可靠性 [69] - 记忆能力模块提升,推理模型可基于单独记忆文件执行长时程任务并保持连贯性 [72][73]