蒸馏
搜索文档
40 天不睡、5 人死磕!DeepMind主管爆Gemini大战DeepSeek惨烈内幕,聊普通程序员的转型之路
猿大侠· 2026-06-24 12:11
行业人才需求与能力构建 - 前沿人工智能实验室最需要的能力覆盖范围非常广,但内核开发和底层工程能力需求尤其强劲,这涉及在真实运行环境中提升大语言模型的执行效率,如修改神经网络架构、优化键值缓存等[7] - 扎实的工程能力是跨越周期的硬通货,最容易获得认可的能力常是优化编译器、调试超参数、在有限芯片中榨取算力等“重体力活”,这比撰写顶级论文更能直接创造价值[6] - 研究人员需具备“研究品味”和高层次直觉,以应对研究过程中的高度不确定性和随机性,这类似于在马尔可夫决策过程中判断不同路径的成功概率[15][16] - 进入前沿研究领域需要扎实的文献梳理能力和“数学成熟度”,能够深入理解并实现论文中的研究想法,这是判断候选人能否处理前沿概念的关键信号[19][20][28][29] - 编程语言研究、强化学习文献、以及分布式系统与优化的交叉地带,是对前沿人工智能研究非常重要的专攻方向[30][33][35] 研究与应用的关系 - 大语言模型的研究与产品落地之间的关系比过去的机器学习更为紧密,将模型整合进真实产品本身需要大量硬核的研究工作[8] - 在人工智能领域,研究和应用应被视为一条连续的光谱,从业者需要有能力在光谱上自由切换,纯研究的意义在于最终能被实现[9][10] - 基础设施层面的投入(如重写蒸馏基础设施)能显著加速研究方法(如蒸馏)的进展,并最终转化为更强的模型表现,这要求跨越整个技术栈工作[11][12] - 推理协同设计是关键研究方向之一,旨在设计在推理时足够高效的神经网络架构,使其在部署硬件上能尽可能高效运行[59] 模型开发与优化的实践 - 大语言模型预训练的核心是“缩放规律”研究,即预测在投入更多计算量时模型最终的测试损失,这需要设计可靠的训练“配方”[22][26] - 量化是模型压缩的前沿,可将神经网络权重的存储精度从32位浮点数压缩至4位整数,并能应用于运行时激活值,从而显著降低运算所需的电力,电力成本占人工智能硬件总运营成本的99%[59][61][62] - 模型浮点运算利用率(MFU)是实际完成的浮点运算次数与硬件理论峰值能力的比值,不可能达到100%,因为神经网络运算包含比矩阵乘法慢的操作以及内存读写[64][66][67] - 推理协同设计的目标是联合优化神经网络架构,使其既能随规模扩大保持质量,又能尽可能提高推理时的硬件利用率,这是一个随硬件演进变化的常青问题[69][70] - 通过流水线式预填等技术创新,可以改变混合专家模型的通信模式,将通信开销分摊并掩盖,从而显著降低时延,使大规模混合专家模型部署成为可能[79][80][81] 职业发展路径与心态 - 没有高大上AI背景的普通工程师(如后端搜索工程师),可以通过在业务中帮助大模型落地、解决具体推理与算力开销问题,在实战中摸清底层架构,最终成功转入核心研究团队[4][6] - 参与高价值项目往往需要投入许多不体面、不光鲜的“脏活累活”,如超参数调优、解决显存溢出、让程序适配老旧硬件等,这些工作对实现更大的业务目标至关重要[2][74][75] - 对抗人工智能带来的职业恐慌,建设性的心态是投资对未来有意义的能力,利用人工智能提升工作效率,思考如何围绕大模型搭建系统将成为关键区分点[38][42] - 人类在组织中是构成信任网络的关键,需要为资源分配和最终结果负责,例如法律大模型无法承担“被吊销执照”的责任,因此人类专业人士的角色不可替代[6][39][40] - 职业层面的重要建议是成为那种别人真心希望其成功的同事,通过帮助他人成功、发起能让互补能力发光的项目来培养深厚的协作感,这对完成大型复杂项目至关重要[90][91] 行业竞争与媒体叙事 - 媒体为制造爆款新闻可能存在选择性呈现,例如在对比表格中有意删除了当时在LMSYS榜单上排名第一的Gemini 2.0 Flash Thinking模型,以构建“中国开源超越美国大厂”的叙事[4][6][86] - 尖端模型的开发常由极小团队在高压下完成,例如Gemini 2.0 Flash的开发团队只有约5人,在硅谷和巴黎两地24小时倒班、不眠不休地死磕了40天以保障训练持续进行[4][83][84]