Workflow
后训练
icon
搜索文档
AI Agent:模型迭代方向?
2025-05-06 10:28
纪要涉及的行业和公司 - **行业**:AI行业 - **公司**:微软、OpenAI、Anthropic、Deepseek、Kimi、Meta 纪要提到的核心观点和论据 AI商业化进展 - **观点**:AI商业化进展整体慢于预期,ToB端更慢,ToC端OpenAI产品仍以chatbot为主 [1][3] - **论据**:微软Copilot未达2023年3月披露时预期效果,OpenAI产品未进入agent阶段 大模型迭代趋势 - **观点**:过去三年全球大模型能力通过前训练和后训练提升,近三个季度后训练成主要迭代方式,推理模型能力显著提高 [2] - **论据**:思维链数据使agent执行复杂任务时可利用过程数据提升推理能力,大模型厂商迭代模型,无迭代能力公司用工程化方式完善产品 agent面临的问题及解决方法 - **观点**:agent执行复杂任务准确率受大模型能力限制,可通过工程化方法和后训练技术提高准确率 [1][5][9] - **论据**:工程化方法如将任务拆分由多个Agent执行;后训练技术如思维链技术可提高模型推理能力 各公司在agent研究方面进展 - **观点**:Anthropic在agent产品化和模型能力方面比OpenAI更具优势 [1][6] - **论据**:Anthropic技术积累更超前,ComputeUse系统运行时间早于OpenAI相应产品至少一个季度 大型科技公司推动大模型发展方式 - **观点**:大型科技公司通过技术研发和工程化手段推动大模型发展 [1][7] - **论据**:Deepseek、OpenAI和Anthropic专注技术研发,其他公司采用工程化手段完善产品 Chatbot和Agent对模型幻觉容忍度差异 - **观点**:Chatbot对模型幻觉容忍度高,Agent需每步操作准确无误,提升执行准确率是当前模型重要问题 [1][8] - **论据**:Chatbot一问一答,个别回答错误不影响后续;Agent执行多步任务,每步正确率90%最终任务也可能失败 DeepSeek发展情况 - **观点**:DeepSeek在2024年推出系列新型多模态模型,提升整体性能与应用范围 [4][12] - **论据**:发布GPT系列多个版本,Prover系列不同版本陆续推出 Prover V2相关情况 - **观点**:Prover V2为解决agent产品化问题提供新思路,性能有显著提升 [1][5][20] - **论据**:核心作者公开信息并提供论文;参数量达6,711亿,采用混合专家模型等改进使其能解决更复杂任务 推理能力提升挑战与方法 - **观点**:推理能力提升依赖算法设计,各公司缺乏统一路径,Deepseek通过两阶段训练提升下一代模型推理能力 [30][32] - **论据**:成功设计奖励函数和强化学习算法可提高推理效果;第一阶段用专家模型迭代,第二阶段优化数据集和架构 Agent AI商业化与算力需求 - **观点**:Agent AI商业化需全面分析,算力需求对Agent发展有重要影响 [37][38] - **论据**:市场可能低估关键算力需求,识别后将推动Agent发展,大厂改造推荐引擎已显示算力提升重要性 其他重要但可能被忽略的内容 - **Kimi情况**:Kimi发布72B预训练版本,能力较强,产品质量优于初期,团队技术实力较强 [24] - **测试集特点**:Putnam Benchmark测试集侧重分解解决问题能力;Deepseek Prover Bench不仅测试数学问题,还对比非形式化与形式化推理,在Deepseek V3版本展示非正式推理优势 [25][26] - **Lean四版本作用**:Lean四版本作为Deepseek Prover V2形式化证明标准,确保验证过程严谨准确 [27] - **DeepSigmaMath模型应用**:V1和V1.5版本参数量约7B,采用监督学习,转向强化学习和树搜索增强探索能力;V2版本参数量提升至7,000亿,采用混合专家模型架构,提高Prover能力 [28] - **基座模型挑战**:数据集和架构优化无市场共识,增加参数量是否为未来迭代主要方式存在分歧 [31] - **DeepSeek模型迭代路径**:从2024年2月DeepSeek模型开始,经Prover 1.0、V1.5、DeepSeek V3等版本,最终蒸馏出7B参数小型高性价比模型,未来可能演化出R2或V4 [34][35]
AI Agent:算力需求空间?
2025-05-06 10:28
纪要涉及的行业 AI算力行业 纪要提到的核心观点和论据 1. **算力需求增长逻辑** - **AI应用渗透推动推理需求**:AI应用逐渐渗透到生活和工作各环节,改变使用习惯,使算力推理需求快速增长,微软、谷歌等大厂推理需求占比可能达60%-70%,主要源于老应用改造而非开发全新APP [1][2] - **细分领域仍有增长潜力**:训练环节市场预期悲观,但实际可能更好,预训练边际效应减缓,后训练增速不明显,但细分领域如AI Agent有增长潜力 [1][4] 2. **市场预期情况** - **算力产业链与AI应用分化**:从2024年5月开始,除ASIC外,算力产业链边际走弱,英伟达股价未创新高,市场对整体算力需求预期悲观;而AI应用领域表现强劲,如Palantir股价创新高,市场对AI应用预期较高 [1][5] 3. **解决算力需求问题方向** - **训练与推理两手抓**:解决算力需求青黄不接问题需关注训练和推理两方面,训练算力需求短期难提升,推理依赖Agent发展,Agent在特定场景已有所起色 [1][7] 4. **2025年算力需求来源** - **老应用改造、新衍生应用与Post Training**:2025年算力需求主要来自老应用改造(如推荐引擎在海外大厂的应用)、新衍生应用(如Agent)以及Post Training阶段,Agent面向ToB/ToD场景,特定领域需求显现 [1][12] 5. **Chatbot与Agent对比** - **应用场景与爆款潜力不同**:Chatbot面向ToC市场,易形成爆款;Agent面向ToB和ToD场景,不易成为爆款,其算力需求难被资本市场迅速感知 [13] - **任务复杂度与交互方式差异大**:Chatbot单次交互量约1000个TOKEN,一对一、一问一答式交互;Agent完成单个任务所需TOKEN量达几万甚至十万个,多任务、多Agent协作执行,消耗数据量和TOKEN数量远高于Chatbot [25] - **存储和算力需求有别**:Chatbot对存储和内存要求低;Agent执行任务各步骤需连贯操作,对存储和内存要求高,对计算能力和存储都有较高需求 [27][28] 6. **算力需求计算与评估** - **训练与推理算力需求公式**:训练算力需求预期约为6ND,推理算力需求预期约为2ND,N代表模型参数量,D代表数据集 [16] - **评估服务器或GPU卡数量**:通过总需求除以单个GPU卡的算力估算所需设备数量,同时考虑设备实际利用率 [34] 7. **模型选择与优化** - **优先选择小模型**:选择模型参数时优先考虑小模型,大厂做推理应用倾向先上小模型,降低成本,提高可接受性 [31] - **优化模型访问和推理方法**:使用低精度计算、模型蒸馏,结合硬件优化如KV缓存优化,可降低内存消耗,提高整体效率 [35] 其他重要但是可能被忽略的内容 1. **后训练情况**:后训练自2024年9月推出,对市场影响不明显,从事厂商数量有限,数据难跟踪,在模型参数量上维持在几万亿量级,虽算力需求预期不明显,但能提升推理能力,如DeepSeek R1体现后训练扩展法则 [8][9][19] 2. **AI Agent产品表现**:一些AI Agent产品如Mariner在美国市场表现良好,融资和用户增长迅速,在海外人力成本高的地区受众广泛,但在中国市场难推广 [2] 3. **大型科技公司资本开支**:微软和Meta本季度未削减资本开支,对未来算力需求持坚定态度,若后续应用进展顺利,算力规划短期内不会下降 [40] 4. **过去一季度AI应用发展**:过去一个季度多个AI应用发展迅速,如Mariner 3月月活访问量达2310万,Cursor有2000多万,微软3月产生50万亿个TOKEN,占季度总量一半 [38]