测试时强化学习(TTRL)搜索框架

搜索文档
Kimi新模型数学反超DeepSeek!北大校友刘征瀛等领衔
量子位· 2025-07-11 15:20
模型性能对比 - Kimi新模型在定理证明领域超越DeepSeek-Prover-V2的671B版本,实现SOTA(State of the Art)性能,72B参数模型表现更优[1] - 在普特南测试中,DeepSeek-Prover V2刷新记录至49道题,而Kimina-Prover仅能完成10道[4][5] - miniF2F基准测试中,Kimina-Prover-72B在pass@32时通过率84.0%,纠错后提升至86.4%,TTRL框架下最终通过率达92.2%[31][32][33] 技术创新 - 引入测试时强化学习(TTRL)搜索框架,支持递归分解问题、并行子引理生成及否定过滤,提升复杂问题解决能力[13][16][19][24] - 开发错误修复机制,通过Lean错误信息解读和迭代反馈优化证明可靠性,结合SFT数据集和批量失败重演策略[25][26] - 其他技术包括随机证明切割数据增强和非证明问题求解,进一步强化模型能力[30] 团队背景与合作 - 模型由Numina组织与Kimi团队联合开发,Numina曾获AI-MO竞赛进步一等奖,获陶哲轩颁奖[2][38] - 团队受MistralAI、Meta等机构支持,核心成员包括中山大学博士生Haiming Wang、月之暗面研究员Flood Sung等[36][37][40][42] - 项目有16位组织成员参与,含多名华人学者,如北京大学毕业生刘征瀛、Numina联合创始人李嘉[39][42][43] 模型版本与架构 - 主模型基于Qwen2.5-72B,采用Kimi k1.5强化学习流程训练[8] - 推出精简版Kimina-Prover-Distill-8B和1.7B,分别基于Qwen3-8B和Qwen3-1.7B[10] - 对比DeepSeek-Prover-V2-671B,Kimina-Prover-72B在pass@1和pass@1024通过率分别为63.9%和87.7%,优于前者的61.9%和86.6%[34]