Workflow
DeepSeek Prover V2
icon
搜索文档
形式化证明与大模型:共创可验证的AI数学未来|量子位直播
量子位· 2025-05-27 11:53
大模型数学推理能力发展 - 5月DeepSeek Prover V2发布 陶哲轩AI数学直播举行 谷歌AlphaEvolve推出 显示大模型解数学题能力成为衡量AI智能天花板的关键指标[1] - FormalMATH基准测试近期发布 旨在系统评估AI数学推理能力 自动定理证明表现与技术路径成为行业焦点[2] 行业技术研讨活动 - 5月29日20:00举办大语言模型形式化证明前沿探索直播 由2077AI开源基金会与多个项目团队联合发起[2] - 参与嘉宾包括DeepSeek Prover第一作者辛华剑 FormalMath项目郁昼亮 Kinima技术负责人王海明等7位学术与工业界专家[3] 行业生态互动 - 量子位策划AI主题征集活动 涵盖365行AI落地方案与一千零一个AI应用案例 鼓励分享AI产品新动向[4] - 量子位每日AI交流群开放加入 提供科技前沿进展每日更新服务[5]
R2来之前,DeepSeek又放了个烟雾弹
虎嗅APP· 2025-05-15 21:03
DeepSeek V3技术突破 - 核心观点:通过"软硬一体"协同设计实现极致降本增效,仅使用2048块英伟达H800 GPU即达到行业领先水平 [2] - 关键技术1:采用"多头隐注意力机制"(MLA)压缩KV Cache,显著降低长文本处理的显存占用 [2] - 关键技术2:优化混合专家模型(MoE)架构,通过动态激活专家提升运算效率并控制有效规模 [3] - 关键技术3:引入FP8混合精度训练,在非敏感环节降低计算量和内存占用,速度提升30%且不影响最终性能 [3] - 关键技术4:设计多平面网络拓扑结构,优化GPU集群数据传输路径减少通信瓶颈 [4] DeepSeek Prover V2进展 - 参数规模从7B跃升至671B,实现数量级突破 [5] - 聚焦数学等科学发现领域,挑战人类智力极限的高壁垒场景 [5] 行业竞争格局 - 头部厂商在参数规模、多模态、应用生态展开全方位竞争,技术迭代加速 [6] - 算力成本攀升和商业化路径模糊成为行业普遍挑战 [6] - 未来竞争关键将转向资源利用效率和垂直场景深度挖掘 [6][7] 公司战略定位 - 通过工程优化实现"非顶级硬件配置下的领先性能",为行业提供可行性路径 [4] - 技术路线强调成本效益与特定高价值场景的结合,区别于单纯追求规模扩张 [6][7] - 系列动作预示R2模型将带来性能突破和行业新思路 [7]
R2来之前,DeepSeek又放了个烟雾弹
虎嗅· 2025-05-15 18:52
DeepSeek V3技术突破 - 公司通过"软硬一体"协同设计实现极致降本,仅使用2048块英伟达H800 GPU即完成模型训练 [2] - 采用"多头隐注意力机制"(MLA)压缩KV Cache显存占用,显著提升长文本和多轮对话处理能力 [2] - 优化混合专家模型(MoE)架构,通过动态激活相关专家提升运算效率并控制资源消耗 [3] - 引入FP8混合精度训练,在保持模型性能同时降低50%计算量和内存占用 [3] - 设计多平面网络拓扑结构优化GPU集群数据传输效率,减少训练瓶颈 [4] DeepSeek Prover V2进展 - 参数规模从7B跃升至671B,实现数量级突破 [5] - 聚焦数学等科学发现领域,展现AI解决高复杂度问题的潜力 [5] 行业竞争态势 - 头部厂商在参数规模、多模态和应用生态展开全方位竞争 [6] - 算力成本攀升和商业化路径模糊成为行业普遍挑战 [6] - 公司技术路线显示效率优化与垂直场景深耕将成为竞争关键变量 [6] 公司战略定位 - 通过工程优化实现非顶级硬件条件下的行业领先性能 [4] - 技术路径为中小玩家提供算力约束下的可行性方案 [4] - 系列动作预示将推出突破性R2模型并带来行业新思路 [7]
AI Agent:模型迭代方向?
2025-05-06 10:28
纪要涉及的行业和公司 - **行业**:AI行业 - **公司**:微软、OpenAI、Anthropic、Deepseek、Kimi、Meta 纪要提到的核心观点和论据 AI商业化进展 - **观点**:AI商业化进展整体慢于预期,ToB端更慢,ToC端OpenAI产品仍以chatbot为主 [1][3] - **论据**:微软Copilot未达2023年3月披露时预期效果,OpenAI产品未进入agent阶段 大模型迭代趋势 - **观点**:过去三年全球大模型能力通过前训练和后训练提升,近三个季度后训练成主要迭代方式,推理模型能力显著提高 [2] - **论据**:思维链数据使agent执行复杂任务时可利用过程数据提升推理能力,大模型厂商迭代模型,无迭代能力公司用工程化方式完善产品 agent面临的问题及解决方法 - **观点**:agent执行复杂任务准确率受大模型能力限制,可通过工程化方法和后训练技术提高准确率 [1][5][9] - **论据**:工程化方法如将任务拆分由多个Agent执行;后训练技术如思维链技术可提高模型推理能力 各公司在agent研究方面进展 - **观点**:Anthropic在agent产品化和模型能力方面比OpenAI更具优势 [1][6] - **论据**:Anthropic技术积累更超前,ComputeUse系统运行时间早于OpenAI相应产品至少一个季度 大型科技公司推动大模型发展方式 - **观点**:大型科技公司通过技术研发和工程化手段推动大模型发展 [1][7] - **论据**:Deepseek、OpenAI和Anthropic专注技术研发,其他公司采用工程化手段完善产品 Chatbot和Agent对模型幻觉容忍度差异 - **观点**:Chatbot对模型幻觉容忍度高,Agent需每步操作准确无误,提升执行准确率是当前模型重要问题 [1][8] - **论据**:Chatbot一问一答,个别回答错误不影响后续;Agent执行多步任务,每步正确率90%最终任务也可能失败 DeepSeek发展情况 - **观点**:DeepSeek在2024年推出系列新型多模态模型,提升整体性能与应用范围 [4][12] - **论据**:发布GPT系列多个版本,Prover系列不同版本陆续推出 Prover V2相关情况 - **观点**:Prover V2为解决agent产品化问题提供新思路,性能有显著提升 [1][5][20] - **论据**:核心作者公开信息并提供论文;参数量达6,711亿,采用混合专家模型等改进使其能解决更复杂任务 推理能力提升挑战与方法 - **观点**:推理能力提升依赖算法设计,各公司缺乏统一路径,Deepseek通过两阶段训练提升下一代模型推理能力 [30][32] - **论据**:成功设计奖励函数和强化学习算法可提高推理效果;第一阶段用专家模型迭代,第二阶段优化数据集和架构 Agent AI商业化与算力需求 - **观点**:Agent AI商业化需全面分析,算力需求对Agent发展有重要影响 [37][38] - **论据**:市场可能低估关键算力需求,识别后将推动Agent发展,大厂改造推荐引擎已显示算力提升重要性 其他重要但可能被忽略的内容 - **Kimi情况**:Kimi发布72B预训练版本,能力较强,产品质量优于初期,团队技术实力较强 [24] - **测试集特点**:Putnam Benchmark测试集侧重分解解决问题能力;Deepseek Prover Bench不仅测试数学问题,还对比非形式化与形式化推理,在Deepseek V3版本展示非正式推理优势 [25][26] - **Lean四版本作用**:Lean四版本作为Deepseek Prover V2形式化证明标准,确保验证过程严谨准确 [27] - **DeepSigmaMath模型应用**:V1和V1.5版本参数量约7B,采用监督学习,转向强化学习和树搜索增强探索能力;V2版本参数量提升至7,000亿,采用混合专家模型架构,提高Prover能力 [28] - **基座模型挑战**:数据集和架构优化无市场共识,增加参数量是否为未来迭代主要方式存在分歧 [31] - **DeepSeek模型迭代路径**:从2024年2月DeepSeek模型开始,经Prover 1.0、V1.5、DeepSeek V3等版本,最终蒸馏出7B参数小型高性价比模型,未来可能演化出R2或V4 [34][35]