大模型技术进展 - DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2,参数规模达6710亿,较前代V1.5的70亿增长近百倍,miniF2F测试通过率88.9%,解决普特南测试49道题 [2] - 月之暗面同期发布形式化定理证明模型Kimina-Prover,开源1.5B和7B参数版本,miniF2F通过率80.7%,普特南测试成绩10道题,性能逊于DeepSeek-Prover-V2 [2] - 两家公司技术均采用强化学习方法,DeepSeek侧重子目标分解,月之暗面聚焦形式推理 [3] 公司竞争动态 - DeepSeek面临阿里巴巴开源模型追赶,市场期待其发布R2或V4模型巩固优势 [4] - 月之暗面Kimi受字节跳动豆包和腾讯元宝挑战,豆包月活5600万领先Kimi的2000万(2024年11月数据),2025年2月DeepSeek以1.94亿月活反超豆包1.16亿 [12] - 腾讯元宝通过微信引流和14亿元投流费用(一季度数据),月活达4200万超越Kimi [13] 技术路径与产品矩阵 - DeepSeek押注数学/代码、多模态、自然语言三大AGI路径,数学与代码被视为封闭可验证的智能试验场 [7] - DeepSeek模型矩阵同步进化:Prover系列2024年3月首发,2025年4月升级至V2;代码模型Coder迭代至V3-0324;通用推理模型R1性能比肩OpenAI o1 [8] - Prover-V2基于DeepSeek-V3微调,采用子目标分解与思维链合成技术 [9] 行业格局与挑战 - 阿里巴巴发布通义千问Qwen3,参数量为DeepSeek-R1的1/3但性能全面超越,开源模型全球下载量超3亿次 [14] - 百度推出文心4.5 Turbo和X1 Turbo,批评DeepSeek存在多模态缺失、幻觉率高、响应慢及成本高问题,但计划6月跟进开源策略 [15][16] - 行业观点认为中国需多个领先大模型而非单一明星公司,鼓励竞争推动技术发展 [14]
梁文锋和杨植麟再“撞车”