Model Distillation

搜索文档

深度｜Google首席科学家Jeff Dean对话Transformer发明者：基于自回归的下一词预测方式并非人类学习的最佳模拟

Z Potentials· 2025-03-16 11:54

文章核心观点文章围绕谷歌AI发展展开，探讨了谷歌早期语言模型探索、硬件与算法对模型的影响、AI自动化未来、训练与推理现状及期望、分布式训练与异步、引导AI可控发展、AI模型未来计算需求、混合专家模型处理能力等内容，强调要主动塑造AI发展方向，确保其符合人类社会长期利益，同时需应对计算需求增长、模型优化、安全可控等挑战 [9][91] Google早期在语言模型上的探索 - Jeff Dean和Noam Shazeer是谷歌DeepMind Gemini项目共同负责人，Jeff是谷歌首席科学家，参与众多变革性系统开发，Noam是现代大语言模型主要架构和技术发明者或共同发明者 [2][3] - 随着谷歌规模扩大，两人逐渐无法掌握公司所有细节，但保持对公司动态高层次了解很重要，建立社交网络有助于获取信息 [4] - Jeff主动联系加入谷歌，Noam 2000年因谷歌是喜欢的搜索引擎且有很多聪明人解决有趣问题而冲动加入，原本计划赚钱后继续AI研究 [6] 从这一代模型到下一代模型的改进因素 - 模型改进由硬件和更大规模驱动，也受重大算法改进、模型架构重大变化、训练数据组合等因素驱动，这些因素使模型计算运算更有效 [9][49] - 人类需主动塑造AI发展方向，确保其进步符合人类社会长期利益，预训练阶段需更先进学习技术，目前训练目标可能未充分利用输入token最大价值 [9] 摩尔定律对系统设计的影响 - 过去几十年硬件变化大，二十年前到十年前硬件每18个月变快，近年通用CPU扩展不显著，制造工艺改进需三年，多核处理器架构改进推动力减弱，但专用计算设备如机器学习加速器、TPU和GPU带来高性能和效率 [11] - 算法跟随硬件，现在算术运算便宜，数据传输成本更高，深度学习基于此起飞，硬件转型使谷歌建设适合深度学习的TPU [11] - 芯片算术单元数量少，但装满单元可提高运算量，算法和数据流需相应调整，算术运算可低精度以装入更多乘法器单元 [12][13] 未来版本TPU的权衡 - 普遍趋势是在量化或采用更低精度模型方面更优秀，从TPUv1开始尝试八位整数量化和模型服务，现在INT4或FP4成常态，甚至有人将模型量化到两位或一位 [18] - 量化需算法设计师和芯片设计师共同设计，虽令人不快但可提升性能和吞吐量，使模型更快 [19][20] 早期模型开发过程 - Jeff 1990年本科论文在32位处理器的Hypercube机器上实现模型并行性和数据并行性，2007年为谷歌机器翻译团队设计N - gram数据的内存压缩表示，将翻译句子时间从12小时缩短到100毫秒 [20] - 当时谷歌机器翻译团队参加DARPA比赛获胜但因翻译时间长无法上线，Jeff花两到三个月与团队设计内存压缩表示，使用五元组统计单词序列频率，构建数据结构并设计批量API [22] AI系统与谷歌使命 - AI是找到信息之间关系的工具，帮助更快获取信息，谷歌是“组织世界信息”的公司，多模态能力表明传递信息不仅是文本，还包括理解世界各种信息模式 [36][37] - 组织信息是巨大机会，当系统能为用户做事时可创造更多价值，需在提升模型能力同时保持灵活和动态 [37] 谷歌搜索与上下文学习结合 - 语言模型有时会出现幻觉和事实问题，因将大量token凝聚在有限参数中，而上下文窗口信息清晰，目前有能处理数百万token上下文的模型，若能关注数万亿个token将很棒，但面临计算挑战，需近似算法 [37][38] - 模型参数在记住事实方面节省内存，在上下文token处理上有很多创新，包括最小化内存占用和更好访问信息 [38][39] AI自动化的未来 - AI编码模型可提高软件开发人员生产力，如外部某人试用实验性编码模型，下达命令后它能生成SQL解析器等初步结果，未来可能有更多类型系统，需管理工作流程 [43] - 未来工作可能和现在相似，人与人之间并行化和机器之间并行化类似，大量计算能力有助于探索新突破，尝试更多想法可能发现惊人成果 [44] - 从这一代模型到下一代模型改进受多种因素驱动，若能自动化探索想法，可验证更多想法并引入实际生产训练，提高效率，但最大规模实验仍需人工参与 [49][50] - 加速芯片设计过程可缩短设计时间，采用自动化搜索过程探索芯片设计空间，获取反馈，使硬件设计更专业化，缩短时间框架 [53] 训练与推理：现状与期望 - 人工智能发展可能在接近人类智能水平时能力迅速爆发，目前模型处理复杂问题分解步骤有限，若能提升复杂问题准确率将是巨大飞跃 [59] - 不久的将来推理时间计算效率将显著提升，与语言模型对话成本低，增加计算能力可使其更智能，推理时采用“更努力思考”方法将是爆发点 [61] - 推理时希望系统主动探索多种潜在解决方案，有调节器可权衡计算成本和结果质量，目前有技术实现，还可决定使用计算器工具 [61][62][63] - 目前正在解决推理时间的算法问题，设计新算法、尝试新方法、找出最佳计算效率是关键，搜索是增加推理时间的一部分 [64][65] - 推理时间计算日益重要，可能需要更专门化硬件，第一代TPU专为推理设计，后续TPU兼顾训练和推理 [66] - 推理存在用户界面问题，如异步任务获取信息和放回后台继续进行的流程，推理计算效率与训练不同，有提高推理效率的方法如使用草稿模型 [68][69] 分布式训练与异步 - 支持多数据中心训练，Gemini 1.5技术报道中使用多个大都市区域训练，训练中长延迟和高带宽连接可行，关键是带宽 [74] - 早期使用CPU机器时进行异步训练帮助扩展，每个模型副本本地计算并发送梯度更新，虽使模型参数摆动但实践可行，TPU集群运行更愉快 [77] - 可记录操作顺序使异步训练结果可重复，从CPU异步训练转向完全同步训练是因TPU硬件芯片和集群及数据中心网络优势，未来可能推动更多异步化 [80][81] - 调试模型表现时，小规模实验进行大量试验，建立基准测试，集成阶段观察改进能否协同工作，不同改进可能存在交互效应，需运行实验验证 [83][84] 引导AI可控发展 - AI发展有渐进和指数级增长两种观点，指数级增长可能使AI在短时间内从“优秀的机器学习研究员”进化为“超人级智能”，需重新思考管理AI智能水平和确保其可控安全 [87] - AI能力将质的飞跃，可在教育和医疗等领域发挥重要作用，但也可能带来负面影响，如制造传播虚假信息、自动化黑客攻击，需确保其安全性和可靠性 [88][89] - 人类需主动塑造AI发展方向，结合政策、技术和安全防护机制引导其部署，确保在关键领域带来社会效益，避免失控 [91][92] - 语言模型分析自身输出内容的能力是解决控制问题的关键，构建可靠安全机制对技术和商业都重要 [93] - 让AI探索算法和研究新想法需人类主导，设置安全防护机制，确保AI可控，利用AI检查自身及其他系统输出，建立限制防止其被滥用 [96][97] AI模型未来的计算需求 - 到2030年，推理计算需求可能比今天增长4 - 6个数量级，原因包括推理计算需求指数级增长、AI服务全球普及、AI模型规模持续扩大，需极高效推理硬件 [99][100] - 未来人们可能愿意花费全球GDP一部分投资AI计算能力，AI系统形态会不同，如个人助理式AI或领导人智能顾问，计算规模将极其庞大 [101][102] - Google持续投资数据中心建设，构建创新性硬件提升AI训练和推理能力，使AI服务更多用户 [103] - 持续学习理论上可行，但存在关键挑战，稀疏模型和混合专家模型可提高推理能力和效率，但当前方法有局限性，未来模型应更有机，允许不同部分独立发展 [103][104] - 让特定领域研究者独立训练模块化子模型并集成到主模型中是更理想方案，可使AI更灵活可扩展，带来软件工程优势，也是持续学习的一种形式 [105] - 可采用版本化的模块化系统，如冻结模型版本，引入不同变体模块进行训练和比较，具有更快研究进展、更低计算成本、更高并行性等优势 [106] - 模型蒸馏可实现现有模型在架构层面转换，持续蒸馏与进化、并行化学习可推动模型自我优化 [107] 混合专家模型的处理能力 - Jeff认为早期混合专家论文里专家模型行为相对容易理解，如某个专家处理特定类型词汇，使用1000 - 2000个专家时模式仍易解读 [108] - 运行时系统可通过学习到的路由器自动选择合适专家，确保推理高效准确，提高计算效率和系统灵活性 [109] - 模型可解释性研究有成果，如Anthropic的研究推断出特定神经元功能，专家级可解释性是更广泛研究领域的子问题，但精细级可解释性并非必需 [109][110] - 现有混合专家模型推理时整个模型需保持在内存中，采用大批量推理优化计算效率，未来专家计算成本和计算路径深度可能不同，需异步处理数据流 [110][111] - 未来AI训练可能集中在少数超大规模公司，因只有它们有能力运营大规模、分布式、异步的MoE体系，系统应根据推理负载特征自动优化资源分配 [112][113]

Deep Learning

Artificial Intelligence

Artificial Intelligence