梁文锋和杨植麟再“撞车”

大模型技术进展 - DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2，参数规模达6710亿，较前代V1.5的70亿增长近百倍，miniF2F测试通过率88.9%，解决普特南测试49道题 [2] - 月之暗面同期发布形式化定理证明模型Kimina-Prover，开源1.5B和7B参数版本，miniF2F通过率80.7%，普特南测试成绩10道题，性能逊于DeepSeek-Prover-V2 [2] - 两家公司技术均采用强化学习方法，DeepSeek侧重子目标分解，月之暗面聚焦形式推理 [3] 公司竞争动态 - DeepSeek面临阿里巴巴开源模型追赶，市场期待其发布R2或V4模型巩固优势 [4] - 月之暗面Kimi受字节跳动豆包和腾讯元宝挑战，豆包月活5600万领先Kimi的2000万（2024年11月数据），2025年2月DeepSeek以1.94亿月活反超豆包1.16亿 [12] - 腾讯元宝通过微信引流和14亿元投流费用（一季度数据），月活达4200万超越Kimi [13] 技术路径与产品矩阵 - DeepSeek押注数学/代码、多模态、自然语言三大AGI路径，数学与代码被视为封闭可验证的智能试验场 [7] - DeepSeek模型矩阵同步进化：Prover系列2024年3月首发，2025年4月升级至V2；代码模型Coder迭代至V3-0324；通用推理模型R1性能比肩OpenAI o1 [8] - Prover-V2基于DeepSeek-V3微调，采用子目标分解与思维链合成技术 [9] 行业格局与挑战 - 阿里巴巴发布通义千问Qwen3，参数量为DeepSeek-R1的1/3但性能全面超越，开源模型全球下载量超3亿次 [14] - 百度推出文心4.5 Turbo和X1 Turbo，批评DeepSeek存在多模态缺失、幻觉率高、响应慢及成本高问题，但计划6月跟进开源策略 [15][16] - 行业观点认为中国需多个领先大模型而非单一明星公司，鼓励竞争推动技术发展 [14]