Context Engineering - 财报，业绩电话会，研报，新闻

Context Engineering

搜索文档

机器之心· 2026-08-02 13:03

核心观点 AI的下一阶段不是把模型训练得更聪明，而是将模型嵌入一个能长期工作、持续试错、自动验证、不断积累能力的系统里[5] 决定生产力的不只是模型智商，而是推理成本、上下文组织、工具质量、验证速度和长程运行可靠性[124] AI能力与工程范式转变 - AI能力已接近初级工程师，且模型在Agent化、长流程编码和复杂任务上的进步比预期更快[9][10] - 未来更多工程师会负责定义问题、搭建环境、编写规范、设计反馈回路，再调度一群Agent去完成任务[13] - 机器学习系统会越来越多地参与改进机器学习系统本身，将目标拆成子问题，自动运行大量实验，比较结果，组合有效方案[13] - AI自动化最先攻入反馈最清晰的领域，如代码测试、芯片布局、模型精度、材料性质等有明确评价标准的问题[14] - AI时代真正重要的单位是一次完整闭环：提出方案、执行方案、测量结果、修正方向[15] 系统设计与第一性原理 - 系统条件变化时，原来不成立的方案可能突然成立，应重新计算一次[19] - 硬件价格、内存容量、网络带宽或模型能力跨过临界点后，旧约束消失，但多数人仍沿用旧架构[20] - Jeff Dean擅长把常识重新变成假设，从第一性原理思考问题，不被今天的解法锚定[21][22] - 不要只看现有方案哪里不够好，而要从第一性原理重新看问题，思考能否把性能提高一个数量级或把成本降低两个数量级[22] 推理硬件与成本 - 2013年Google深度学习语音识别错误率下降一半，相当于过去二十年进展在几个月里集中发生[24] - 若每名Google用户每天使用三分钟语音识别，按当时CPU效率，Google可能需要把服务器规模扩大一倍[26] - 第一代TPU比当时的CPU和GPU节能30到80倍，延迟也低了20到30倍[31] - 下一轮重要机会在专用化，重心会转向低延迟、低能耗推理[34] - 若延迟能改善50倍，模型才能进入交互界面、机器人、实时视频、操作系统和连续决策流程[35][36] 数据搬运与能量约束 - 完成一次数学乘法约需一个皮焦耳能量，把数据从高带宽内存搬到计算单元，能量成本可能高出约1000倍[40] - AI系统中的昂贵动作不是“算”，而是“把要算的东西搬过来”[41] - 批处理可摊薄数据搬运成本，但与低延迟天然冲突[42][43] - 推理对延迟极度敏感，Agent若连续调用模型1000次，单次延迟降低50%，整个任务完成时间可能出现巨大差异[43] 上下文工程与Agent系统 - 一个真正有用的AI系统，除了模型，还需要检索、工具、记忆、历史信息、执行环境和反馈机制[46] - 上下文工程让小团队留下重要机会，创业者可围绕具体业务组织领域知识、工具流程、客户数据和评估标准[48] - 技能文件成为Agent生态中的关键资产，封装团队多年的隐性经验[53] - 未来公司的差异化不只存在于模型权重里，也存在于被编码进工作流的经验里[54] - Agent运行到第30步或第50步时，会因分布外问题开始失控，需要技能、提示和多Agent系统约束[57][58][59] - 可靠的长程Agent需要检查点、状态管理、回滚、分支探索、外部评估、权限控制和异常恢复，更像分布式系统[61] - 未来优秀的Agent平台会继承分布式系统思想：任务可拆分，结果可验证，失败可重试，状态可恢复[63] 创业机会与“1%法则” - 小团队机会存在于通用模型没有充分关注的具体领域，可组合产品界面、专有数据、工作流和领域技能[67] - 通用模型正在迅速变强，今天看似独立的产品功能，六个月或十二个月后可能被基础模型直接覆盖[68] - 寻找当前通用模型成功率接近0%或1%的任务，而不是已能做到20%的任务[70] - 20%意味着能力已开始出现，更多数据、更大模型和更长推理很可能快速推向可用[71] - 结构性盲区有三类：专有数据、专业评价、窄而深的模型[74] - 真正的机会位于理解模型能力边界与理解行业深处问题的交界处[75] 稀缺能力与未来组织 - 当代码不再稀缺，品味、规格和问题选择会更贵[77] - 研究工作的大部分价值在于是否选择了一个值得研究的问题[78] - Agent让执行成本下降后，问题选择的重要性进一步上升[79] - 与虚拟Agent协作时，目标越清晰，成功率越高[81] - 说明你究竟想要什么，比让Agent写软件更重要[82] - 未来的管理者要编写更清晰的目标和验收标准，设计文档会成为机器执行的输入[82] - 品味可通过写下一批未来12个月会变得重要的事情，12个月后复盘来训练[83][84] 自动化科学 - 传统科研流程受制于实验成本和验证延迟，AI可自动提出和执行更多实验，并把昂贵验证器变成廉价近似模型[94][96] - 量子化学中，神经网络近似器接近原模拟器准确度，却快了约30万倍[97] - 验证速度变化后，实验不再是珍贵的单次下注，而变成高频搜索[98] - 未来衡量研究效率的指标可能是“每单位算力产生多少有效发现”[100] 评价体系与失败认知 - 2014年关于知识蒸馏的论文被NeurIPS拒绝，审稿人认为“不太可能产生重大影响”[104][105] - 论文被拒后团队放上arXiv，行业照样读到并使用，蒸馏成为Gemini Flash模型保持强能力的重要方法[106][107] - 评价体系总有盲区，一个方案的价值有时只有真正承受过系统瓶颈的人才能看见[108] - 市场、投资人和同行的否定，可能意味着方向错误，也可能只是对方没有处在同一个问题现场[109] 问题选择与同伴 - 判断标准：如果解决了这个问题并且最好的结果真的发生了，世界会因此明显变好吗[115] - 要找有互补能力的人，也要找低自我、愿意协作、相处愉快的人[116] - 团队成员最好各自拥有别人没有的工具，并在共同工作中继续扩充自己的“工具腰带”[116]

Artificial Intelligence

Artificial Intelligence