Python编程工具 - 财报，业绩电话会，研报，新闻 - Reportify

Python编程工具

搜索文档

14B打败671B，微软rStar2-Agent在数学推理上超过DeepSeek-R1

36氪· 2025-09-02 15:36

模型性能突破 - 微软研究院开发的rStar2-Agent-14B模型仅14B参数规模，在数学推理基准测试中达到前沿性能，超越671B参数的DeepSeek-R1模型[2][17] - 该模型在AIME24测试中准确率达到80.6%，分别超过o3-mini (medium)、DeepSeek-R1和Claude Opus 4.0 (thinking) 1.0%、0.8%和3.6%[19] - 在AIME25和HMMT25测试中分别取得69.8%和52.7%的准确率，展现稳定一致的强大推理能力[18][19] 技术创新亮点 - 采用主动式强化学习方法，使模型能够与Python编程工具环境交互，通过反馈信号进行推理验证和学习[1][6] - 构建高吞吐量代码执行环境，支持45K个并发工具调用，平均反馈时间仅0.3秒[10] - 提出GRPO-RoC训练算法，通过非对称采样保留故障模式作为负向信号，同时强调高质量成功案例[12][14] - 采用负载均衡调度程序动态分配GPU资源，在64块MI300X GPU上仅用一周完成训练[10][12] 训练效率优势 - 仅需510个强化学习步骤即可实现前沿数学推理能力，大幅降低训练成本[16] - 采用多阶段强化学习训练，将每个阶段长度限制在8K→12K范围，避免大规模扩展至16K→48K[15] - 从非推理SFT阶段开始训练，避免过拟合并保持初始响应简短，使强化学习更有效培养推理能力[14] 泛化能力表现 - 尽管仅使用数学领域训练，在GPQA-Diamond科学推理基准上以60.9%准确率超越DeepSeek-V3的59.1%[22] - 在BFCL v3智能体工具使用任务达到60.8%准确率，在IFEval和Arena-Hard通用基准测试中分别取得83.4%和86.6%的竞争力表现[22]

微软(HK:04338)

主动式强化学习

软件与服务

rStar2-Agent-14B

Python编程工具

主动式强化学习

软件与服务

rStar2-Agent-14B

Python编程工具