Workflow
token
icon
搜索文档
不止芯片!英伟达,重磅发布!现场人山人海,黄仁勋最新发声
21世纪经济报道· 2025-03-19 11:45
文章核心观点 英伟达GTC2025大会围绕AI推理时代展开,发布了涵盖计算架构、企业AI应用、数据中心、机器人和自动驾驶等领域的技术,构建完整AI生态体系,有望推动企业和个人生产力变革,虽发布会后股价下跌,但大会或提振AI市场部分正面情绪 [28][30] 分组1:大会概况 - 当地时间3月18日,英伟达创始人兼CEO黄仁勋在英伟达GTC2025大会发表演讲,称其为“AI界的超级碗”,今年关键词是“推理”和“token”,AI叙事重心从训练转向推理 [1] - Forrester副总裁兼首席分析师戴鲲认为大会有三个方向值得关注,分别是面向后训练和推理的加速计算、面向企业级智能代理开发的Agentic AI、AI在物理世界中的应用 [3] 分组2:芯片家族 - 英伟达发布Blackwell Ultra系列芯片及下一代GPU架构Rubin,Vera Rubin NLV144计划于2026年下半年上线,Rubin Ultra NVL576将于2027年下半年面世 [5] - Grace Blackwell已全面投入生产,新平台强化推理能力,Blackwell Ultra在训练和测试时间缩放推理方面实现突破,被称为“AI工厂平台” [6] - Blackwell Ultra(GB300)包含GB300 NVL72机架级解决方案和HGX B300 NVL16系统,GB300 NVL72 AI性能提升1.5倍,使AI工厂收益机会相比Hopper平台提高50倍;HGX B300 NVL16推理速度提高11倍、计算能力提升7倍、内存容量扩大4倍 [8][9] - 瑞银报告指出,Blackwell系列需求强劲,GB200瓶颈解决,英伟达加快B300/GB300推出,预计第一季度提前量产,2025年第三季度大规模出货 [10] - 基于Blackwell Ultra的产品预计2025年下半年由合作伙伴推出,思科、戴尔等将率先推出相关服务器,预计到2028年数据中心投资超一万亿美元,暗示英伟达有增长空间 [11] 分组3:CPO交换机 - 英伟达推出全新NVIDIA Photonics硅光子技术,通过共封装光学取代传统可插拔光学收发器,可降低40MW功耗,提高AI计算集群网络传输效率 [13] - 推出Spectrum-X与Quantum-X硅光子网络交换机,Spectrum-X以太网平台带宽密度达传统以太网1.6倍,Quantum-X光子Infiniband平台AI计算架构速度较前代提升2倍,可扩展性增强5倍 [14] - 英伟达光子交换机集成光通信创新技术,较传统方式减少75%激光器使用,能效提升3.5倍等;摩根大通报告指出CPO应用于GPU最早可能2027年实现,且面临多项技术挑战,对基板供应商是利好 [15] 分组4:软件升级 - 英伟达关注机器人、自动驾驶等领域,生成式AI改变计算方式,计算机成为token生成器,数据中心演变成AI工厂 [17] - 英伟达新推出AI推理服务软件Dynamo,支持下Blackwell推理性能可达上一代Hopper的40倍,能最大化AI工厂token收益,采用分离式推理架构实现高效AI推理计算 [18][19] - 英伟达推出Llama Nemotron系列推理模型和AI - Q,支持企业和开发者构建AI Agent,提升推理能力,减少开发成本和部署难度 [20] - 英伟达核心护城河CUDA是强大软硬件体系,已拥有各领域AI工具 [21] 分组5:端侧AI和机器人 - 英伟达推出基于NVIDIA Grace Blackwell平台的全新DGX个人AI超级计算机系列,包括DGX Spark和DGX Station,将原本仅限数据中心使用的架构性能引入桌面环境 [23][24] - 英伟达正式发布全球首款开源、可定制的通用人形机器人基础模型Isaac Groot(GROOT N1),采用双系统架构,可适配多种任务,已被多家机器人制造商采用 [25] - 英伟达推出一系列模拟框架和方案,在机器人基础模型和体系化解决方案上再次升级,摩根大通预计其在Physical AI方面会有更多突破 [26] 分组6:市场情绪 - 过去一季度AI领域变化大,英伟达GTC2025大会发布众多技术,但发布会结束后股价下跌3.43% [28] - 摩根大通报告指出整体AI市场情绪偏空,GTC大会有望提振部分正面情绪,改善Blackwell系统供应状况,预计2026年AI数据中心资本支出继续健康增长 [29]
无需训练让扩散模型提速2倍,上交大提出Token级缓存方案|ICLR‘25
量子位· 2025-02-28 13:19
文章核心观点 - Diffusion Transformer模型通过token粒度的缓存方法实现图像和视频生成模型上无需训练的两倍以上加速,上海交通大学等团队提出的Toca方法有效解决了Diffusion Transformers高计算成本问题,在多种模型上表现优异 [1][4] 背景 - 扩散模型在图像、视频生成等任务中性能出色,Diffusion Transformers扩展参数量和计算规模推动视觉生成领域发展,但面临高计算成本、推理速度慢的挑战 [5] - 研究者提出减少采样步数和加速去噪网络模型等加速方法,基于特征缓存的方法因无损加速、无需训练受工业界关注 [5] - 不同计算层及同层不同Token对缓存误差适应性不同,有必要将模型加速粒度细化到token级并筛选重要token [5] 核心贡献 - ToCa首次在DiT加速中引入token级缓存复用策略,并从误差积累与传播角度分析特征缓存方法 [7] - ToCa提出4种适用于不同情形的token selection策略,应用于多种最新模型实验证明其更优秀 [7] 研究动机 - 不同token特征缓存引入误差值及对模型输出影响差异大,需考虑token级特征缓存 - 复用策略 [8] 方法 计算流程 - Cache初始化:推理完整时间步,将各层特征放入cache [9] - 重要性得分计算:计算各token重要性得分,标记最低部分token为cache状态 [9] - 部分计算:对传入token执行正常计算得到输出 [10] - Cache更新:调出cache中token输出,更新计算得到的新输出,循环长度2 - 4个时间步,还设计了随层深度上升而衰减的计算比例 [11] 重要性得分计算 - ToCa基于4个不同方面计算重要性分数,实际应用中加权求和给出总得分 [13] 实验结果 图像生成模型 - ToCa在PixArt - alpha上相比其他加速方法和无加速原图对齐效果更佳,图 - 文对齐能力更好,FID - 30k和CLIP Score表现远超其他方法 [15][16] - ToCa在FLUX模型上生成质量佳,和原图基本无差异,在文字生成任务细节有差异,后续将研究,在FLUX上1.5倍加速,数值指标基本不变优于其他方法 [17][18] - ToCa在基础模型DiT上结果证明其优越性 [19] 视频生成模型 - 团队制作网页展示OpenSora上加速效果,将视频生成结果部分抽帧浏览 [20][21] - ToCa在VBench测试中远优于其他方法,取得2.36倍无损加速,在加速效果和生成质量上最优,大部分指标和原模型得分几乎相同 [21][22] 总结 - ToCa是首次从Token级实现扩散模型加速的方法,适配性强,在多种任务上表现佳,基于特征缓存的扩散模型加速方法值得进一步探索 [23]
AI芯片的双刃剑
半导体行业观察· 2025-02-28 11:08
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容编译自semiwiki,谢谢。 与传统软件编程不同,人工智能软件建模代表着一种变革性的范式转变,重塑了方法论,重新定义了 执行过程,并推动了人工智能处理器要求的重大进步。 软件编程与人工智能建模:根本性的范式转变 传统软件编程 传统软件编程是围绕编写明确的指令(代码)来完成特定任务而构建的。程序员通过定义一组严格的 规则来建立软件的行为,这使得这种方法非常适合可预测性和可靠性至关重要的确定性场景。随着任 务变得越来越复杂,代码库的大小和复杂性通常会增加。 当需要更新或更改时,程序员必须手动修改代码——根据需要添加、更改或删除指令。此过程可以精 确控制软件,但会限制其在没有程序员直接干预的情况下动态适应不可预见的情况的能力。 AI 软件建模 AI 软件建模代表了解决问题方法的根本性转变。AI 软件建模使系统能够通过迭代训练从数据中学习 模式。在训练期间,AI 分析大量数据集以识别行为,然后在推理阶段应用这些知识来执行翻译、财 务分析、医疗诊断和工业优化等任务。 人工智能利用概率推理根据概率做出预测和决策,从而能够处理不确定性并适应变化。通过不断使用 新数据进行 ...
Beyond(BYON) - 2024 Q4 - Earnings Call Transcript
2025-02-25 22:30
Beyond (BYON) Q4 2024 Earnings Call February 25, 2025 08:30 AM ET Company Participants Allison Fletcher - VP - Legal & Acting General CounselMarcus Lemonis - Executive Chairman & Principal Executive OfficerAdrianne Lee - President & CFODave Nielsen - PresidentJonathan Matuszewski - Senior Vice PresidentJulio Marquez - Equity Research AssociateAlexia Morgan - Equity Research AssociateRick Patel - Managing Director Conference Call Participants Tom Forte - Managing Director & Senior Consumer Internet Analyst O ...
Robinhood(HOOD) - 2024 Q4 - Earnings Call Transcript
2025-02-13 07:00
Robinhood Markets (HOOD) Q4 2024 Earnings Call February 12, 2025 05:00 PM ET Company Participants Vlad Tenev - Chief Executive Officer & Co-FounderJason Warnick - Chief Financial OfficerJack Freeman - Senior Manager of Investor RelationsMichael Cyprys - Managing DirectorSteven Chubak - Managing DirectorBrian Bedell - DirectorDevin Ryan - Director of Financial Technology ResearchAlex Markgraff - Vice President - Equity ResearchBen Budish - Director Conference Call Participants Dan Dolev - Managing Director - ...