Workflow
梁文锋和杨植麟再“撞车”
创业家·2025-05-07 17:57

大模型技术进展 - DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2,参数规模达6710亿,较前代V1.5的70亿参数提升近百倍,miniF2F测试通过率88.9%,解决普特南测试49道题 [3] - 月之暗面同期发布Kimina-Prover模型,开源1.5B和7B参数版本,miniF2F通过率80.7%,普特南测试解决10道题,性能低于DeepSeek-Prover-V2 [3] - 两家公司技术报告均强调强化学习应用,DeepSeek通过子目标分解优化数学推理,月之暗面聚焦形式推理模型架构 [4] 公司竞争格局 - DeepSeek面临阿里巴巴开源模型追赶,通义千问Qwen3参数量为R1的1/3但性能全面超越,阿里开源模型全球下载量超3亿次,衍生模型超10万个 [15] - 月之暗面Kimi用户增长受字节跳动豆包和腾讯元宝挤压,QuestMobile数据显示2025年2月AI应用月活排名为DeepSeek(1.94亿)、豆包(1.16亿)、腾讯元宝(4200万),Kimi跌出前三 [14] - 腾讯元宝通过微信引流和14亿元投流费用实现用户快速扩张,超越Kimi的1.5亿元营销投入 [14] 技术路径与产品迭代 - DeepSeek押注数学/代码、多模态、自然语言三大AGI路径,数学与代码被视为封闭可验证的智能试验场 [7] - Prover-V2基于DeepSeek-V3微调,采用子目标分解和思维链技术强化推理能力,与R2/V4版本无直接关联 [9] - 市场传闻R2模型可能采用华为昇腾芯片,但行业人士指出其生态系统和训练鲁棒性存在短板 [10][11] 行业动态与挑战 - 百度发布文心4.5 Turbo和X1 Turbo,成本更低且性能提升,计划6月开源文心大模型系列 [16] - 李彦宏公开批评DeepSeek存在处理单一文本、幻觉率高、响应速度慢等缺陷,但承认其行业影响力 [16] - 头部公司持续面临创新压力,DeepSeek需推出R2/V4巩固优势,月之暗面通过内测社区功能增强用户粘性 [5][14]