Workflow
AI数学天花板来了?DeepSeek新模型低调开源,网友直呼:R2指日可待!

DeepSeek-Prover-V2-671B模型发布 - 公司于4月30日在Hugging Face平台开源了专注于数学定理证明的大语言模型DeepSeek-Prover-V2-671B [1] - 模型采用DeepSeek-V3架构,参数高达6710亿,采用MoE模式,具有61层Transformer层,7168维隐藏层 [3][6] - 模型最大位置嵌入达到16.38万,能够处理极其复杂的数学证明问题 [6] 模型技术细节 - 模型分为163个分片,每个分片大小约为4.3GB [4] - 使用safetensors文件格式,支持BF16、FP8、F32等多种计算精度 [4] - 采用FP8量化技术减小模型大小,提高推理效率 [8] - 结合合成数据、强化学习与蒙特卡洛树搜索等优化技术 [6] 模型性能提升 - 在高中数学题测试中,成功率从50%提高到了63.5% [12] - 相比V1.5版本7B参数的小模型,此次直接升级为大模型 [14] 公司发展动态 - 创始人梁文锋表示要将探索通用人工智能作为核心使命 [7] - 团队保持每季度重大更新的开发范式:2024年9月V2.5、12月V3、2025年3月V3-0324 [7] - 3月发布的V3-0324版本已被业内视为未来R2的基础模型 [5][7] 行业反响 - 在社交平台X上,网友对R2大模型发布表示期待 [7] - 有评论称"中国的AI初创公司正在改变整个游戏规则" [15] - 行业对"中国正在将一些功夫应用于AI"表示兴奋 [16]