工程化手段

搜索文档
AI Agent:模型迭代方向?
2025-05-06 10:28
纪要涉及的行业和公司 - **行业**:AI行业 - **公司**:微软、OpenAI、Anthropic、Deepseek、Kimi、Meta 纪要提到的核心观点和论据 AI商业化进展 - **观点**:AI商业化进展整体慢于预期,ToB端更慢,ToC端OpenAI产品仍以chatbot为主 [1][3] - **论据**:微软Copilot未达2023年3月披露时预期效果,OpenAI产品未进入agent阶段 大模型迭代趋势 - **观点**:过去三年全球大模型能力通过前训练和后训练提升,近三个季度后训练成主要迭代方式,推理模型能力显著提高 [2] - **论据**:思维链数据使agent执行复杂任务时可利用过程数据提升推理能力,大模型厂商迭代模型,无迭代能力公司用工程化方式完善产品 agent面临的问题及解决方法 - **观点**:agent执行复杂任务准确率受大模型能力限制,可通过工程化方法和后训练技术提高准确率 [1][5][9] - **论据**:工程化方法如将任务拆分由多个Agent执行;后训练技术如思维链技术可提高模型推理能力 各公司在agent研究方面进展 - **观点**:Anthropic在agent产品化和模型能力方面比OpenAI更具优势 [1][6] - **论据**:Anthropic技术积累更超前,ComputeUse系统运行时间早于OpenAI相应产品至少一个季度 大型科技公司推动大模型发展方式 - **观点**:大型科技公司通过技术研发和工程化手段推动大模型发展 [1][7] - **论据**:Deepseek、OpenAI和Anthropic专注技术研发,其他公司采用工程化手段完善产品 Chatbot和Agent对模型幻觉容忍度差异 - **观点**:Chatbot对模型幻觉容忍度高,Agent需每步操作准确无误,提升执行准确率是当前模型重要问题 [1][8] - **论据**:Chatbot一问一答,个别回答错误不影响后续;Agent执行多步任务,每步正确率90%最终任务也可能失败 DeepSeek发展情况 - **观点**:DeepSeek在2024年推出系列新型多模态模型,提升整体性能与应用范围 [4][12] - **论据**:发布GPT系列多个版本,Prover系列不同版本陆续推出 Prover V2相关情况 - **观点**:Prover V2为解决agent产品化问题提供新思路,性能有显著提升 [1][5][20] - **论据**:核心作者公开信息并提供论文;参数量达6,711亿,采用混合专家模型等改进使其能解决更复杂任务 推理能力提升挑战与方法 - **观点**:推理能力提升依赖算法设计,各公司缺乏统一路径,Deepseek通过两阶段训练提升下一代模型推理能力 [30][32] - **论据**:成功设计奖励函数和强化学习算法可提高推理效果;第一阶段用专家模型迭代,第二阶段优化数据集和架构 Agent AI商业化与算力需求 - **观点**:Agent AI商业化需全面分析,算力需求对Agent发展有重要影响 [37][38] - **论据**:市场可能低估关键算力需求,识别后将推动Agent发展,大厂改造推荐引擎已显示算力提升重要性 其他重要但可能被忽略的内容 - **Kimi情况**:Kimi发布72B预训练版本,能力较强,产品质量优于初期,团队技术实力较强 [24] - **测试集特点**:Putnam Benchmark测试集侧重分解解决问题能力;Deepseek Prover Bench不仅测试数学问题,还对比非形式化与形式化推理,在Deepseek V3版本展示非正式推理优势 [25][26] - **Lean四版本作用**:Lean四版本作为Deepseek Prover V2形式化证明标准,确保验证过程严谨准确 [27] - **DeepSigmaMath模型应用**:V1和V1.5版本参数量约7B,采用监督学习,转向强化学习和树搜索增强探索能力;V2版本参数量提升至7,000亿,采用混合专家模型架构,提高Prover能力 [28] - **基座模型挑战**:数据集和架构优化无市场共识,增加参数量是否为未来迭代主要方式存在分歧 [31] - **DeepSeek模型迭代路径**:从2024年2月DeepSeek模型开始,经Prover 1.0、V1.5、DeepSeek V3等版本,最终蒸馏出7B参数小型高性价比模型,未来可能演化出R2或V4 [34][35]