美团开源5677亿参数大模型,两项测试刷新SOTA!
模型发布与核心参数 - 美团开源了名为LongCat-Flash-Prover的大模型,该模型拥有5677亿参数,并采用混合专家模型架构 [1] - 该模型的核心目标是解决复杂的数学证明问题 [1] 模型架构与技术创新 - 模型引入了混合专家迭代框架,用于生成大规模、高质量的形式化推理轨迹 [3] - 通过整合Lean4以及基于AST的多阶段严格验证流程,旨在消除模型生成内容中的“幻觉”现象 [3] - 在训练中采用了混合专家迭代框架来生成冷启动数据,并在强化学习阶段引入HisPO算法以稳定MoE模型在长程任务上的训练 [3] - 模型加入了定理一致性和合法性检测机制,以防止奖励黑客行为 [3] 性能表现与基准测试 - 在MiniF2F-Test基准测试中,该模型取得了97.1%的成绩,仅需72次推理尝试 [3] - 在PutnamBench任务上,该模型解决了41.5%的问题,使用了118次推理尝试 [3] - 在上述两项测试中,该模型的表现刷新了当前的最优水平 [3] 开源信息 - 该模型已在GitHub和Hugging Face平台开源,提供了具体的访问地址 [4]