AI算力:从训练到推理的转向 - 2022年生成式AI爆发初期,大模型演进聚焦于“训练”阶段,即让模型学会知识[2] - 2025年以来,算力负荷重心开始向“推理”阶段转移,即让训练好的模型运用知识生成内容[2] - 这一转向重构了算力硬件的需求逻辑,训练阶段侧重算力与通信全方位堆叠以突破性能上限,推理阶段则追求效率提升带来的用量和性价比提升,核心瓶颈转向通信效率与存储适配[4] 存储配套优化 - 推理阶段对存储的核心诉求是低延迟、大容量、高可靠,需针对每一层级进行精细化优化[6] - 不同存储介质定位分工明确,带动相关需求呈现结构性增长[6] - SRAM聚焦低延迟场景,成为推理性能提升的关键,英伟达GTC推出的LPU方案将AI推理中高频的解码任务迁移至SRAM处理,大幅提升数据读取效率与密度[10] - LPDDR DRAM作为一种低功耗、大容量内存,承担核心数据缓存功能,更长的上下文窗口需要更多LPDDR DRAM支持[10] - NAND作为一种非易失性闪存,确保断电时数据不丢失,聚焦海量数据长效存储,当AI处理超长文本、海量数据集时,不常用但需留存的数据依托NAND闪存存储[10] 架构优化 - 架构优化主要集中在计算芯片与存储间的高速通信以及通信架构升级[10] - 柜内互联方面,光模块逐步替代铜缆,随着带宽需求提升,铜缆物理极限显现,当前铜缆主流速率从400G向800G演进,未来向1.6T升级,但1.6T铜缆传输距离缩短至3-5米,CPO与NPO技术成为行业共识,在机柜内部署光模块实现高效互联,OFC大会显示CPO/NPO技术已进入规模化试点阶段[16] - 机柜间互联通过提升CPU处理效率并优化网络通信协议,支撑更大规模推理集群扩展,解决多机柜间数据交互延迟问题,带动高端CPU与高速交换机需求[16] - 跨数据中心互联通过光纤系统将相距数十公里的多个数据中心互联,使其在逻辑上整合为一个数据中心,从而突破单个数据中心因供电限制无法继续扩容的瓶颈[16] AI应用:从普及到价值创造 - 当前AI应用正从效率提升走向实现盈利变现的跨越,企业端专用领域AI应用、AI Agent等领域成为明确新趋势[14] - AI的效率提升价值已在各行业普及,相较于效率普遍提升,AI在变现增收方面进入积极探索阶段[16] - 通用大模型在消费者端变现难度较高,而其长链条、高密度的逻辑推理能力与企业端服务需求高度契合,使得B端成为AI变现的核心突破口[16] 企业端变现路径 - 工具化变现方面,以AI编程为例,企业支付固定大模型调用费用可实现工程师产出翻倍,在不扩大人员规模前提下提升营收,投入产出比清晰,推动AI工具在企业端规模化渗透[17] - 算力与API变现方面,头部大模型厂商通过API接口销售算力资源,下游初创企业采购后封装为面向特定行业的B端服务,实现二次价值转化[17] - 谷歌、微软、亚马逊、阿里等云厂商依托自身算力优势,通过模型调用接口、算力输出等方式实现算力资源商业化变现[18] AI Agent发展 - 2026年被认为是AI Agent爆发之年,行业人士认为Agent将走向桌面OS化[20] - 重点方向是利用Computer Use Model,让AI能够看懂屏幕截图,理解电脑或手机界面信息,在更大上下文背景下保持准确性,同时针对常用任务生成数据并梳理任务流程,代替人类完成订票、填表、数据录入等重复性工作[20] - 从商业模式看,AI Agent崛起可能深刻改变软件行业收费逻辑,传统SaaS按人头收费模式面临挑战,当AI Agent开始替代人工完成部分工作,企业SaaS软件需求数量将减少,这将倒逼软件公司转变模式,开拓新中小企业客户,从按人头收费向Agent统一管理平台转型,构建能统一调度管理各类Agent行为的企业操作系统[22]
英伟达GTC和全球光通讯大会有哪些看点?