低延迟 - 财报，业绩电话会，研报，新闻

低延迟

搜索文档

量子位· 2026-03-10 10:13

谷歌的AI战略与模型发展路线 - 公司遵循**帕累托前沿策略**，同时推进两条模型路线：一方面是用于深度推理、复杂数学问题等**高端前沿模型**；另一方面是用于低延迟场景的**高性价比模型**[3][19] - **蒸馏技术**是实现模型高效能的关键，通过该技术，**小模型可以非常接近大模型性能**，实现“下一代Flash ≈ 上一代Pro，甚至更好”[5][6][8][25][27] - 公司认为**低延迟**具有巨大价值，如果延迟降低**20-50倍**，将彻底改变用户体验，低延迟对于未来完成更复杂任务（如编写整个软件包）至关重要[9][29][30][153] 模型能力与多模态发展 - 公司从设计之初就希望Gemini是**多模态模型**，其多模态不仅包括文本、图像、视频、音频等人类感知模态，还包括理解**非人类的模态**（如LIDAR传感器数据、机器人数据、医疗影像、基因组信息等），世界上可能有**数百种不同的数据模态**[9][42][44][45][46] - 模型在**长上下文能力**上取得显著进展，已从“大海捞针”式单针测试转向更复杂的多针检索或真实任务（如从数千页文本或数小时视频中提取信息）[36] - **统一模型时代已经到来**，通用模型的能力已大幅提升，在许多场景下不再需要专用系统，**通用模型会胜出**[105][107][110] 硬件、系统与能效协同设计 - 在硬件与机器学习研究之间必须进行 **“协同设计”** ，硬件设计需预测未来 **2–6年** 的模型趋势，研究团队的洞察能指导在芯片中加入可能带来**10倍提升**的“投机性功能”[13][82][84] - 系统设计以**能量消耗**为第一性原则，从内存搬运数据的能量成本（如从SRAM搬运需**1000皮焦耳**）远高于计算本身（小于**1皮焦耳**），这自然引导出通过**批处理（batching）** 来摊薄成本的设计选择[13][73][76][77] - 公司早期在搜索系统架构上的演进（如2001年将索引**全部放进内存**）本质是从“精确词匹配”走向“语义理解”，这与大语言模型（LLM）的逻辑一脉相承[63][65] 未来研究方向与行业影响预测 - 未来最重要的技能将是 **“写清楚需求”** 或 **“清晰表达需求”** ，因为智能体（Agent）的输出质量完全取决于如何定义问题，这将成为一种**核心技能**[2][144][145][146] - 未来工程师的工作模式可能演变为人均管理**50个智能体实习生**，完成大量并行任务，这种组织沟通效率可能比管理真人团队更高[1][138][139] - 两个关键预测：1) **真正“个性化”的模型**会极其重要，它能访问并理解用户的全部授权历史信息；2) 专用化硬件将推动**模型延迟大幅下降**，从而改变许多应用场景[13][156][158] - 重要的开放研究方向包括：让模型更可靠地完成**更长、更复杂的任务**（可能涉及模型间协作），以及将强化学习扩展到**“不可验证”的领域**[91] 公司内部项目复盘与组织策略 - 公司反思了早期在AI资源分配上的问题，将算力和人才分散在多个团队和方向被内部认为是 **“愚蠢的”** ，这直接促成了整合资源、打造**统一多模态模型Gemini**的项目起点[13][131][133] - 公开基准测试（benchmark）有价值，但理想的生命周期是初始分数在 **10%–30%** ，通过改进提升到**80%–90%** ，超过**95%** 则意义不大[35] - 垂直领域模型（如医疗、法律LLM）仍有意义，应基于强大的基础模型在特定领域数据上强化，理想情况是模块化，通过“可安装知识包”或检索来增强基础模型能力[113][114][116][117]