12.1万高难度数学题让模型性能大涨，覆盖FIMO/Putnam等顶级赛事难度，腾讯上海交大出品

DeepTheorem团队投稿量子位 | 公众号 QbitAI 12.1万道IMO级难度数学"特训题"，让AI学会像人类一样推导数学证明！ "特训"过后，模型定理证明性能大涨，7B模型性能比肩或超越现有的开源模型和Claude3.7等商业模型。 "特训题"为 Deep Theore m ，是首个基于自然语言的数学定理证明框架与数据集，由腾讯AI Lab与上海交大团队联合推出。团队表示，定理证明是数学前沿的重要组成部分，但当前大语言模型（LLM）在数学推理，特别是通过强化学习（RL）进行训练时，往往需要可以自动验证的答案，导致大模型无法像数学家那样通过自然语言进行定理证明。图（b）展示经过强化学习训练的DeepTheorem-7B模型性能，比肩或超越现有的开源模型和商业模型（Gemini2.0-flash， Qwen2.5-72B- Instruct， Claude3.7 等），仅次于o1、o3以及Gemini2.5-pro强推理模型。 DeepTheorem-121K 1、规模与难度：专为"极限挑战"而生 DeepTheorem训练集的显著特点是其大规模与高难度。其包含121K ...