Data Augmentation - 财报，业绩电话会，研报，新闻

Data Augmentation

搜索文档

GTC 巅峰对话 Jeff Dean x Bill Dally：预训练范式已死、延迟瓶颈不在计算、谈透 AI 五年未来 | GTC 2026

AI科技大本营· 2026-03-19 10:08

行业趋势与核心变化 - 过去一年，模型在数学和编程等有可验证奖励的问题上能力进步惊人，例如Gemini在国际数学奥林匹克竞赛和ICPC编程竞赛中均获得金牌[7][8] - 基于智能体的工作流在更长时间尺度的任务上变得有效，模型可以相对自主地运行数小时甚至数天，而不再需要近距离监督[9][10] - 随着后台运行的智能体增多，超低延迟推理成为关键问题，推理延迟直接决定智能体解决问题的效率[11][12] - 推理已成为当前的重头戏，数据中心里很容易出现90%的功耗都花在推理上的情况[79][80] 硬件架构与性能优化 - 推理性能是延迟与吞吐量的权衡曲线，追求极低延迟时，大部分延迟源于通信[15][18] - 英伟达正重新设计架构以压缩通信延迟，目标是将片上通信时间从几百纳秒缩短至约30纳秒，并将片外通信的物理接口延迟降至几个时钟周期[20][21] - 通过优化，即便是相当大的模型，也能为每个用户实现每秒1万到2万个token的处理速度[23] - 训练与推理在硬件需求上差异显著：训练更吃内存容量，而推理考验计算、内存带宽、容量和通信之间的资源配比[81] - 推理内部也存在差异：预填充阶段像训练，属于密集计算型；解码阶段则为极瘦矩阵运算，是极端的带宽和延迟受限[82] - 未来硬件可能分化为针对训练/预填充、解码以及解码内部进一步细分的不同类别[82] 模型演进与算法创新 - 模型演进的一个明显方向是参数越来越大，但激活越来越稀疏，例如混合专家模型[88][89] - 注意力机制存在改进空间，以应对长上下文窗口的挑战，例如通过聚类注意力状态将复杂度降至N log N甚至更低[93][94] - 另一种有前景的架构是分层检索机制，通过多层轻量级检索从极大规模信息池中筛选出最相关部分送入上下文窗口，而非单纯扩大注意力窗口[96][97][98] - 预训练机制可能被重塑，未来模型的学习可能更深地与“在环境里采取行动”交织，并主动决定下一步学习的数据，这有望显著提高学习效率[69][70][71] - 预训练与后训练的人为边界长期看可能不会一直存在[74] 数据与算力扩展 - 对于“数据快挖完了”的观点存在不同看法，世界上仍有大量数据未被用于训练，如带音频的视频数据、机器人数据、自动驾驶数据等[56][57][58][59] - 合成数据是填补数据缺口的一条路径，可视为向系统注入算力以产生更多训练数据，本质是一种数据增强[60][61][62][67] - 通过数据增强、防止过拟合等手段，即使投入更多算力进行多轮训练迭代，模型也能持续变强且未必过拟合[67][68] AI赋能硬件与芯片设计 - AI已广泛应用于芯片设计流程，例如英伟达的NVCell系统用强化学习完成标准单元库迁移，将原本需80人月的工作缩短为一块GPU运行一夜，且结果可与人类设计打平甚至更好[103][104][105] - 强化学习系统PrefixRL用于解决加法器中的前瞻级放置问题，其设计比人类方案在面积和功耗上优20%到30%[106][107][109][110] - 专用大模型如ChipNeMo和BugNeMo，通过训练内部专有资料，可用于解答设计问题、总结错误报告和分配任务，提升工程师效率[111][112][113][116][117] - 智能体系统已开始用于架构探索，通过运行思想实验和参数空间搜索来缩小巨大的设计空间[118][119] - 长期愿景是端到端的自动化设计，可能由主智能体协调多个负责不同阶段的专门智能体完成[125] 能效与系统挑战 - 能效提升的核心原则是减少数据搬运，因为从HBM4内存读取一个NVFP4数字的能耗比执行一次乘加运算本身高约1000倍[134][135][136][137] - 关键优化思路包括让计算尽可能在SRAM附近完成，以及探索将DRAM直接堆叠在计算芯片上方，以大幅降低数据搬运的能耗和延迟[139][140][143] - 利用模型稀疏性是降低能耗的另一方向，但除了2:1结构化稀疏和MoE等粗粒度稀疏，更一般的稀疏会破坏规则性，难以在硬件上高效实现，这是一个开放问题[147][148][152][153] - 当智能体运行速度远快于人类时，为人类速度设计的工具（如C编译器）的启动时间将成为端到端延迟的硬瓶颈，未来需要重新工程化这些工具[129][130][131] 网络拓扑与互连 - 网络拓扑的选择没有绝对优劣，核心取决于业务负载和流量模式[156][158] - 对于具有强局部性的负载，低基数、直接互连的网络（如2D/3D Torus）更理想；而对于专家分散的负载（如MoE），高基数、基于交换机的网络可能更高效[156] - 混合架构是可行方案，例如局部通信采用直接互连，全局通信走专门的交换网络[156] AI的社会影响与应用前景 - AI最被看好的积极社会影响领域是教育和医疗[160][161] - 在教育方面，AI有潜力为每个人提供真正个性化的辅导老师，根据学生的学习风格和进度调整教学形式，将教学效果提升一到两个标准差[161][162][163][164][165] - 在医疗健康领域，AI可扮演个性化健康教练角色，并整合目前未被充分利用的健康监测数据、基因组信息等，帮助进行疾病预防和个性化用药[177][179][180][182] - 应拥抱AI工具，如同当年计算器进入课堂，将教育重点从机械计算转移到更高层次的理解[168][169] 公司规模与组织文化 - 公司规模从小变大后，决策速度可能变慢，官僚作风不可避免，社区感会减弱[188][189][190][192] - 大公司也带来了以前不可能拥有的规模和资源，能够承担更大的项目[193] - 组织需要持续调整，在规模扩张的同时加入恰到好处的新协作方式，避免过度官僚化[194][195]

Artificial Intelligence

Ultra-low-latency Inference

Meta-learning

Data Augmentation

Regularization

Artificial Intelligence

Ultra-low-latency Inference

Meta-learning

Data Augmentation

Regularization

Artificial Intelligence