Jeff Dean最新访谈:未来开发者人均50个智能体,写需求成核心技能
量子位·2026-03-10 10:13

谷歌的AI战略与模型发展路线 - 公司遵循帕累托前沿策略,同时推进两条模型路线:一方面是用于深度推理、复杂数学问题等高端前沿模型;另一方面是用于低延迟场景的高性价比模型[3][19] - 蒸馏技术是实现模型高效能的关键,通过该技术,小模型可以非常接近大模型性能,实现“下一代Flash ≈ 上一代Pro,甚至更好”[5][6][8][25][27] - 公司认为低延迟具有巨大价值,如果延迟降低20-50倍,将彻底改变用户体验,低延迟对于未来完成更复杂任务(如编写整个软件包)至关重要[9][29][30][153] 模型能力与多模态发展 - 公司从设计之初就希望Gemini是多模态模型,其多模态不仅包括文本、图像、视频、音频等人类感知模态,还包括理解非人类的模态(如LIDAR传感器数据、机器人数据、医疗影像、基因组信息等),世界上可能有数百种不同的数据模态[9][42][44][45][46] - 模型在长上下文能力上取得显著进展,已从“大海捞针”式单针测试转向更复杂的多针检索或真实任务(如从数千页文本或数小时视频中提取信息)[36] - 统一模型时代已经到来,通用模型的能力已大幅提升,在许多场景下不再需要专用系统,通用模型会胜出[105][107][110] 硬件、系统与能效协同设计 - 在硬件与机器学习研究之间必须进行 “协同设计” ,硬件设计需预测未来 2–6年 的模型趋势,研究团队的洞察能指导在芯片中加入可能带来10倍提升的“投机性功能”[13][82][84] - 系统设计以能量消耗为第一性原则,从内存搬运数据的能量成本(如从SRAM搬运需1000皮焦耳)远高于计算本身(小于1皮焦耳),这自然引导出通过批处理(batching) 来摊薄成本的设计选择[13][73][76][77] - 公司早期在搜索系统架构上的演进(如2001年将索引全部放进内存)本质是从“精确词匹配”走向“语义理解”,这与大语言模型(LLM)的逻辑一脉相承[63][65] 未来研究方向与行业影响预测 - 未来最重要的技能将是 “写清楚需求”“清晰表达需求” ,因为智能体(Agent)的输出质量完全取决于如何定义问题,这将成为一种核心技能[2][144][145][146] - 未来工程师的工作模式可能演变为人均管理50个智能体实习生,完成大量并行任务,这种组织沟通效率可能比管理真人团队更高[1][138][139] - 两个关键预测:1) 真正“个性化”的模型会极其重要,它能访问并理解用户的全部授权历史信息;2) 专用化硬件将推动模型延迟大幅下降,从而改变许多应用场景[13][156][158] - 重要的开放研究方向包括:让模型更可靠地完成更长、更复杂的任务(可能涉及模型间协作),以及将强化学习扩展到**“不可验证”的领域**[91] 公司内部项目复盘与组织策略 - 公司反思了早期在AI资源分配上的问题,将算力和人才分散在多个团队和方向被内部认为是 “愚蠢的” ,这直接促成了整合资源、打造统一多模态模型Gemini的项目起点[13][131][133] - 公开基准测试(benchmark)有价值,但理想的生命周期是初始分数在 10%–30% ,通过改进提升到80%–90% ,超过95% 则意义不大[35] - 垂直领域模型(如医疗、法律LLM)仍有意义,应基于强大的基础模型在特定领域数据上强化,理想情况是模块化,通过“可安装知识包”或检索来增强基础模型能力[113][114][116][117]

Jeff Dean最新访谈:未来开发者人均50个智能体,写需求成核心技能 - Reportify