Gemini灵魂人物、传奇工程师Jeff Dean最新访谈：未来人均50个虚拟实习生，用不上专家了！

文章核心观点 - 谷歌首席AI科学家Jeff Dean认为，AI发展正进入“大一统模型”时代，通用模型的能力将超越专用模型，未来将是专用模块与模块化基座模型组合的形态，模型知识将可像软件包一样安装和调用 [57][59][62] - 模型能力的持续提升将改变人机协作模式，未来个人可能管理由大量AI智能体组成的“虚拟实习生”团队，从而极大提升生产力 [75][77] - 行业发展的关键驱动力在于通过硬件与模型的协同设计、算法创新（如蒸馏、推测解码）以及系统级优化，来突破当前以能耗和延迟为核心的瓶颈，实现成本下降和能力跃迁 [14][35][43][48] 模型战略与架构演进 - 公司采取双线并行的模型策略：一方面研发高端前沿模型用于深度推理等复杂任务，另一方面通过蒸馏等技术将大模型能力迁移至低成本、低延迟的轻量模型，以服务更广泛的场景 [7] - 蒸馏是模型能力迁移和Flash系列模型性能突破的核心技术，其本质是将大模型（或集成模型）的知识“压缩”到小模型中，使得新一代轻量模型能达到甚至超越上一代大型模型的效果 [9][10] - 公司认为，长上下文处理能力具有真实价值，但当前基于注意力机制的方案存在平方级复杂度瓶颈，未来的突破在于构建能营造“处理万亿token”效果的系统，而非单纯扩大窗口 [17][18] - 多模态是模型的根本设计原则，不仅包括文本、图像、视频、音频等人类模态，也应涵盖机器人传感器数据、医疗影像、基因组信息等非人类模态，以建立对世界的广泛理解 [20] 硬件协同设计与能效瓶颈 - 能耗而非纯粹算力正成为AI发展的真正瓶颈，数据在内存层级间搬运的能耗（可达1000 pJ）远高于实际计算操作的能耗（约1 pJ），这从根本上解释了批处理（batching）等技术对提升能效的重要性 [34][35][37] - 公司通过硬件（TPU）与前沿机器学习研究的协同设计来保持领先，芯片设计需提前预测未来2-6年的计算需求，同时模型架构也会根据硬件特性进行反向调整以实现最高效的训练和推理 [43][46] - 极低精度计算（如三值精度）是降低能耗的关键方向之一，结合权重缩放因子可在保持模型效果的同时大幅减少数据比特传输 [47] - 推测解码（Speculative Decoding）等算法能有效提升推理效率，其原理是用小模型草稿预测多个token，再由大模型验证，从而摊薄权重加载的成本，实现几倍的提升 [48] 研发、评估与规模化部署 - 公司使用不公开的内部基准来推动模型能力升级，这些基准确保训练数据无泄露，代表了模型尚未具备但希望获得的能力，以此指导数据、架构或训练方法的改进 [16] - 模型规模化部署的历史经验表明，当系统规模发生数量级变化时，架构可能发生根本性变革，例如谷歌搜索在2001年将全量索引放入内存，从而从字面匹配转向语义理解，这为当前大模型系统的设计提供了思路 [24][25][26] - 在资源分配上，公司曾意识到分散化研发会导致算力和人才碎片化，因此通过整合团队和资源，集中力量打造了从头设计、统一多模态的Gemini项目 [73] 未来方向与行业影响 - 通用模型的能力正在快速泛化，过去需要专门系统（如AlphaProof）解决的复杂任务（如国际奥数），现在仅靠统一大模型增加推理资源即可应对，这降低了对领域专家的依赖 [52][56][57] - 未来理想的模型架构是“基座模型+可安装知识模块”的组合，用户可根据场景调用不同的专业模块（如超强医疗模块、机器人模块），同时结合检索系统来获取最新或私有知识，而非将所有知识都预训练进参数 [59][61][62] - 个性化模型能访问用户授权的个人数据（邮件、文档、照片等），相比通用模型将带来巨大的价值提升 [86] - 低延迟交互体验至关重要，公司预测未来硬件和系统的进步可能将延迟降低20-50倍，达到每秒数千甚至上万token的生成速度，这将使得多轮、复杂的思维链推理成为可能，彻底改变编程等工作方式 [85][86]