Jeff Dean最新访谈：未来开发者人均50个智能体，写需求成核心技能

谷歌的AI战略与模型发展路线 - 公司遵循帕累托前沿策略，同时推进两条模型路线：一方面是用于深度推理、复杂数学问题等高端前沿模型；另一方面是用于低延迟场景的高性价比模型[3][19] - 蒸馏技术是实现模型高效能的关键，通过该技术，小模型可以非常接近大模型性能，实现“下一代Flash ≈ 上一代Pro，甚至更好”[5][6][8][25][27] - 公司认为低延迟具有巨大价值，如果延迟降低20-50倍，将彻底改变用户体验，低延迟对于未来完成更复杂任务（如编写整个软件包）至关重要[9][29][30][153] 模型能力与多模态发展 - 公司从设计之初就希望Gemini是多模态模型，其多模态不仅包括文本、图像、视频、音频等人类感知模态，还包括理解非人类的模态（如LIDAR传感器数据、机器人数据、医疗影像、基因组信息等），世界上可能有数百种不同的数据模态[9][42][44][45][46] - 模型在长上下文能力上取得显著进展，已从“大海捞针”式单针测试转向更复杂的多针检索或真实任务（如从数千页文本或数小时视频中提取信息）[36] - 统一模型时代已经到来，通用模型的能力已大幅提升，在许多场景下不再需要专用系统，通用模型会胜出[105][107][110] 硬件、系统与能效协同设计 - 在硬件与机器学习研究之间必须进行 “协同设计” ，硬件设计需预测未来 2–6年 的模型趋势，研究团队的洞察能指导在芯片中加入可能带来10倍提升的“投机性功能”[13][82][84] - 系统设计以能量消耗为第一性原则，从内存搬运数据的能量成本（如从SRAM搬运需1000皮焦耳）远高于计算本身（小于1皮焦耳），这自然引导出通过批处理（batching） 来摊薄成本的设计选择[13][73][76][77] - 公司早期在搜索系统架构上的演进（如2001年将索引全部放进内存）本质是从“精确词匹配”走向“语义理解”，这与大语言模型（LLM）的逻辑一脉相承[63][65] 未来研究方向与行业影响预测 - 未来最重要的技能将是 “写清楚需求” 或 “清晰表达需求” ，因为智能体（Agent）的输出质量完全取决于如何定义问题，这将成为一种核心技能[2][144][145][146] - 未来工程师的工作模式可能演变为人均管理50个智能体实习生，完成大量并行任务，这种组织沟通效率可能比管理真人团队更高[1][138][139] - 两个关键预测：1) 真正“个性化”的模型会极其重要，它能访问并理解用户的全部授权历史信息；2) 专用化硬件将推动模型延迟大幅下降，从而改变许多应用场景[13][156][158] - 重要的开放研究方向包括：让模型更可靠地完成更长、更复杂的任务（可能涉及模型间协作），以及将强化学习扩展到**“不可验证”的领域**[91] 公司内部项目复盘与组织策略 - 公司反思了早期在AI资源分配上的问题，将算力和人才分散在多个团队和方向被内部认为是 “愚蠢的” ，这直接促成了整合资源、打造统一多模态模型Gemini的项目起点[13][131][133] - 公开基准测试（benchmark）有价值，但理想的生命周期是初始分数在 10%–30% ，通过改进提升到80%–90% ，超过95% 则意义不大[35] - 垂直领域模型（如医疗、法律LLM）仍有意义，应基于强大的基础模型在特定领域数据上强化，理想情况是模块化，通过“可安装知识包”或检索来增强基础模型能力[113][114][116][117]