CUDA Tile
搜索文档
Nvidia Just Gave Its CUDA Platform a Major Revamp. Will That Move the Needle for NVDA Stock?
Yahoo Finance· 2025-12-09 23:02
英伟达CUDA平台重大更新 - 公司首席执行官黄仁勋表示 此次发布的CUDA 13.1是CUDA平台二十年来最重大的进步 其核心是全新的CUDA Tile编程模型 该模型将显著改变GPU开发方式 [1] 技术升级细节 - 新编程模型使程序员无需再微观管理数千个独立任务 转而可以处理数据“块” 并让CUDA的编译器和运行时自动确定最佳的工作负载分配方式 [2] - 该更新目前已在Python中提供 并计划在未来某个时间点发布与C++兼容的版本 [2] 对行业竞争格局的影响 - 此次更新从多个关键方面巩固了公司的护城河 CUDA是赋予英伟达硬件实际效能的软件层 [3] - 尽管竞争对手可能提供价格低得多的“接近”硬件 但由于CUDA软件栈的存在 其产品销量远不及英伟达 客户也不愿承受迁移至其他平台的麻烦 [4] - 公司的平台估计控制了高达95%的人工智能加速器市场 此次更新使其护城河更加坚固 因为客户一旦基于此块系统构建其人工智能技术栈 转换成本将变得更高 [5] 对公司业务与市场地位的潜在影响 - 如果此次更新的影响能体现在季度财报中 公司股票将可能因此大幅受益 客户流失率可能降低 并为竞争对手设定了新的竞争壁垒 [6] - 此次更新虽不如发布新GPU那样引人注目 但使公司在人工智能军备竞赛中进一步领先 同时 新软件更新能提升旧款GPU的效率 削弱了关于其旧款GPU价值迅速贬值的看空论点 [7]
Jim Keller:英伟达“自毁”CUDA护城河
半导体芯闻· 2025-12-09 18:36
文章核心观点 - NVIDIA对其CUDA软件堆栈进行了重大升级,推出了CUDA Tile,将传统的SIMT编程模型转变为基于图块的方法,旨在简化GPU编程并提升对张量核心等专用硬件的抽象[2] - 芯片架构师Jim Keller认为,此次更新可能标志着CUDA软件独占性的结束,因为基于图块的方法在业界普遍,可能简化代码向其他GPU平台的移植[2] - 然而,文章也指出,CUDA Tile通过其专有技术优化了NVIDIA硬件,实际上可能巩固了公司对CUDA生态的控制,加强了其竞争优势[5] CUDA Tile 更新的核心内容与意义 - CUDA Tile是NVIDIA CUDA平台自2006年诞生以来最大的进步,引入了基于图块的并行编程虚拟指令集,是GPU编程领域的一次“革命性”更新[6] - 更新彻底改变了编程模式:此前程序员需精细调整图块大小、内存等参数;之后,程序员可将更多精力集中于核心算法逻辑,而由编译器和运行时自动处理硬件复杂性[4] - 新模型专注于结构化矩阵运算和卷积等高度常规的操作,成功减少了手动优化需求,使更广泛的用户群体能够轻松上手GPU编程[4] - 此次更新是NVIDIA让AI惠及所有人的方法之一,尽管其性能可能略逊于底层手动优化实现[4] 技术架构与实现细节 - CUDA Tile的基础是CUDA Tile IR,这是一套全新的底层虚拟机,引入了一套用于原生图块操作的虚拟指令集[4][9] - 它允许开发者以更高层次编写算法,抽象化张量核心等专用硬件的细节,使代码能够兼容当前及未来的张量核心架构[7] - CUDA Tile IR通过原生支持基于图块的程序,扩展了CUDA平台功能,类似于PTX确保SIMT程序可移植性的角色[9] - 编程范式允许开发者通过指定数据块来编写算法,并定义对这些块执行的计算,无需逐个元素设置执行方式,类似于Python中NumPy库的操作方式[7][9] - 大多数开发者将通过NVIDIA cuTile Python等高级接口与CUDA Tile交互,而CUDA Tile IR主要面向编译器或库的开发者[12] 对行业生态与竞争格局的潜在影响 - 基于图块的方法在业界已十分普遍,例如Triton等框架就采用了这种方法,这可能使将CUDA代码先移植到Triton,再移植到AMD等公司的AI芯片上变得更加容易[5] - 当抽象层级提高时,开发者无需再编写特定于架构的CUDA代码,理论上代码移植会变得更加容易[5] - 然而,CUDA Tile背后的专有技术针对NVIDIA硬件语义进行了深度优化,因此即使移植变容易,实现高性能仍然复杂[5] - 通过简化CUDA编程,NVIDIA实际上可能是在巩固其对CUDA软件堆栈的控制,加强其竞争优势[5] - CUDA Tile并非要取代SIMT,两者可以共存:开发者可根据需要选择编写SIMT内核或使用张量核心的分块内核,两者在软件堆栈中作为互补路径存在[10]
AI日报丨英伟达推出CUDA 13.1 与 CUDA Tile,百度旗下昆仑芯拟赴港上市
美股研究社· 2025-12-08 19:18
AI芯片与基础设施投融资动态 - 百度旗下AI芯片公司昆仑芯正筹备赴港上市 此前曾考虑科创板 公司在一轮融资中投前估值超过250亿元人民币[5] - 软银集团正洽谈收购数据中心私募股权公司DigitalBridge Group Inc 目标将其私有化 该公司市值约18亿美元 此举旨在把握AI基础设施需求激增的机遇[6] - 软银创始人孙正义的战略是将资本重新投入AI 包括此前宣布与OpenAI和甲骨文等合作在美国建设价值5000亿美元的大型数据中心项目[6] 科技巨头产品与技术进展 - 英伟达推出CUDA 13.1与CUDA Tile 公司CEO黄仁勋称这是该平台约20年来的最大升级 新特性引入了针对模块化并行编程的虚拟指令集 能够以更高层次编写算法并抽象硬件细节[8] - Meta Platforms推迟发布对标苹果Vision Pro的混合现实眼镜"Phoenix" 发布时间从原定2026年下半年推迟至2027年上半年 目的是为了打磨更多细节以交付可靠体验[8] - 特斯拉计划在2027年前将日本的电动车充电端口数量增加40% 达到1000个 充电网络将从主要城市向其他地区扩展[10] - 特斯拉在日本的充电站数量也将从目前的138座 增至180至200座[11] 科技公司管理层与人才动向 - 苹果首席执行官库克的继任者人选备受关注 有消息称库克可能在明年离开苹果[9] - 苹果近期遭遇严重人才外流 大约40名工程师在过去一个月选择跳槽至OpenAI[9] - 苹果前员工、iPod联合设计者Tony Fadell公开宣布 自己愿意成为苹果的新首席执行官[9]
英伟达自毁CUDA门槛,15行Python写GPU内核,性能匹敌200行C++
36氪· 2025-12-08 15:23
CUDA 13.1更新核心内容 - 英伟达发布CUDA 13.1,官方定性为自2006年诞生以来最大的进步[1] - 核心变化是推出全新的CUDA Tile编程模型,让开发者可以用Python编写GPU内核[1] - 一个15行的Python内核性能可以媲美200行手动优化的CUDA C++代码[1][13] CUDA Tile编程模型的技术革新 - 编程范式从传统的SIMT(单指令多线程)模型转变为基于Tile(瓦片)的模型[4][5] - 开发者无需手动管理线程索引、线程块等底层细节,只需将数据组织成Tile并定义运算,编译器和运行时会自动完成硬件映射[4][5] - 此举将GPU编程门槛从“HPC专家”降低到“会写Python的数据科学家”[8] 支撑新模型的核心组件 - CUDA Tile IR是一套全新的虚拟指令集,在高级语言和硬件之间增加抽象层,确保基于Tile编写的代码能在不同代际的GPU上兼容运行[8] - cuTile Python是面向开发者的接口,允许直接用Python编写GPU内核[8] 针对Blackwell架构的性能优化 - cuBLAS引入了FP64和FP32精度在Tensor Core上的仿真功能[10] - 新增的Grouped GEMM API在MoE(混合专家模型)场景下能实现高达4倍加速[10] - cuSOLVER的批处理特征分解在Blackwell RTX PRO 6000上相比L40S实现了约2倍的性能提升[10] - 开发者工具Nsight Compute新增了对CUDA Tile内核的性能分析支持,可将性能指标映射回cuTile Python源代码[10] - 目前CUDA Tile仅支持Blackwell架构(计算能力10.x和12.x),开发重点集中在AI算法,未来会扩展到更多架构并推出C++实现[10] 行业影响与“护城河”争议 - 芯片设计传奇人物Jim Keller质疑,Tile模型可能使AI内核更容易移植到其他硬件上,从而削弱英伟达CUDA的“护城河”[3][11] - Tile编程模型并非英伟达独有,AMD、Intel等厂商的硬件在底层架构上同样可以支持基于Tile的编程抽象[11] - 新模型提高了代码抽象层次,理论上使同一套算法逻辑更容易适配到其他支持Tile编程的硬件[11] - 但英伟达通过CUDA Tile IR提供的跨代兼容性,主要服务于其自家GPU平台间的无缝迁移,移植到竞争对手平台仍需重写[12] 对开发者生态的潜在影响 - GPU编程门槛大幅降低,大量数据科学家和AI研究者可直接上手编写高性能GPU代码,无需依赖稀缺的HPC专家进行深度优化[12][13]
刚刚,英伟达CUDA迎来史上最大更新!
具身智能之心· 2025-12-08 09:11
文章核心观点 - NVIDIA发布了CUDA Toolkit 13.1,这是其CUDA平台自2006年诞生以来规模最大、最全面的一次更新,核心是引入了全新的CUDA Tile编程模型,旨在通过更高层次的抽象来简化GPU编程,特别是针对AI领域的张量计算,并提升代码对未来GPU架构的兼容性 [1][2][4] CUDA Tile 编程模型 - **核心概念与优势**:CUDA Tile是一种基于Tile(数据块)的编程模型,允许开发者在高于传统单指令多线程(SIMT)的层级编写GPU核函数 [7] 开发者只需指定数据块(Tile)及要在其上执行的数学运算,编译器和运行时环境会自动决定将工作负载分发到各线程的最佳方式,从而屏蔽了调用Tensor Core等专用硬件的底层细节 [8][9] - **组成组件**:CUDA 13.1包含两个用于Tile编程的组件:1) CUDA Tile IR,一种用于NVIDIA GPU编程的全新虚拟指令集架构(ISA);2) cuTile Python,一种新的领域特定语言(DSL),用于在Python中编写基于数组和Tile的核函数 [10] - **开发背景与目标**:随着AI工作负载演进,张量成为基础数据类型,专用硬件(如Tensor Core)日益复杂 [15] CUDA Tile的引入是为了提供一种比SIMT层级更高的新型GPU编程方式,抽象化Tensor Core及其编程模型,使编写的代码能兼容当前及未来的Tensor Core架构,简化高性能代码编写 [14][15] - **当前限制与规划**:目前CUDA Tile仅支持NVIDIA Blackwell(计算能力10.x和12.x)系列产品,开发重点聚焦于AI算法的Tile编程 [16] 英伟达计划在未来的CUDA版本中扩展对更多架构的支持、增加更多特性并引入C++实现 [16] 运行时与多进程服务(MPS)更新 - **Green Context(绿色上下文)**:这是一种轻量级的CUDA上下文替代方案,自CUDA 13.1起在运行时API中开放使用 [20][21] 它允许用户定义和管理GPU资源的独立分区(主要是流式多处理器SM),从而实现对GPU空间更细粒度的划分与资源分配,典型应用是确保高优先级、低延迟代码能获得专属的SM资源 [21] - **内存局部性优化分区(MLOPart)**:这是NVIDIA Blackwell系列及更新GPU上的一项新特性,允许基于同一物理GPU创建多个专门优化内存局部性的独立CUDA设备,每个设备拥有更少的计算资源和更小的可用内存 [25] 目前仅支持NVIDIA B200与B300系列,未来版本将加入对GB200与GB300系列的支持 [28] - **静态流式多处理器(SM)分区**:这是针对NVIDIA Ampere架构及更新GPU的MPS特性,为客户端提供创建独占SM分区的方法,旨在提供确定性的资源分配并改善客户端间的隔离性 [29] 数学库性能增强 - **cuBLAS性能更新**:CUDA 13.1增加了对FP4、FP8和BF16数据类型的性能支持 [40] 并引入了一项全新的实验性API,支持Blackwell GPU的分组GEMM功能,兼容FP8和BF16/FP16数据类型,在MoE用例中,其设备端形状可实现最高4倍的加速,优于多流GEMM实现 [41] - **cuSOLVER性能更新**:CUDA 13.1继续优化用于特征分解的批处理SYEVD与GEEV API [42] 在批大小为5,000的测试中,与NVIDIA L40S相比,NVIDIA Blackwell RTX Pro 6000 Server Edition实现了约2倍的加速 [42] 对于一般稠密矩阵特征值计算(GEEV),当矩阵行数n=5000时加速比约为1.0,在n=30000时达到约1.7 [45][46] 开发者工具更新 - **Nsight Compute增强**:增加了对CUDA Tile核函数的性能分析支持,在摘要页新增“Result Type”列以区分Tile与SIMT核函数,在详情页新增“Tile Statistics”部分总结Tile维度和管线利用率,并在源码页支持将指标映射到高层级的cuTile核函数源码 [33][35] - **编译时修补与插桩**:NVIDIA Compute Sanitizer 2025.4通过编译器标志增加了对NVCC编译时修补的支持,增强了内存错误检测能力并提升了性能 [34] 编译时插桩功能可将错误检测直接集成到NVCC中,实现更快的运行速度并通过高级分析捕捉更隐蔽的内存问题 [36] - **Nsight Systems更新**:2025.6.1版本带来了系统级CUDA追踪、CUDA主机函数追踪、默认硬件模式追踪等新功能,并在时间轴行中显示Green Context的SM分配情况以帮助理解GPU资源利用率 [41] CUDA核心计算库(CCCL)更新 - **确定性浮点运算选项**:NVIDIA CCCL 3.1为cub::DeviceReduce提供了额外的浮点确定性选项,允许用户在确定性和性能之间进行权衡 [50] 新增“GPU间”选项可保证在不同GPU间运行得到逐位相同的结果 [53] - **更便捷的单相CUB API**:CCCL 3.1为一些CUB算法添加了新的重载,允许用户跳过繁琐的临时存储查询、分配和释放两阶段调用模式,简化了API使用 [54][55]
英伟达(NVDA.US)推出CUDA 13.1 与 CUDA Tile 黄仁勋称二十年来最大升级
智通财经网· 2025-12-06 12:18
公司技术发布 - 英伟达推出了CUDA 13.1和CUDA Tile,公司CEO黄仁勋表示这是该平台自约20年前推出以来所取得的最大进步 [1] - 新的创新引入了一套针对基于模块的并行编程的虚拟指令集,重点在于能够以更高的层次编写算法,并将专用硬件的细节抽象出来 [1] - 新的基于图元的编程选项使开发人员能够精细地控制其代码的执行方式,尤其是在涉及多种GPU架构的情况下 [1] 技术细节与优势 - 基于图块的编程允许开发者通过指定数据块来编写算法,然后定义对这些图块执行的计算操作,无需在逐元素级别设置算法的执行方式 [1] - CUDA Tile在Python中已有可用版本,公司计划在未来发布与C++兼容的版本 [1] - 公司CUDA架构师Stephen Jones表示,CUDA Tile在Python中的实现与人工智能开发框架的结合非常完美,并有意将其作为开源项目发布 [1]
刚刚,英伟达CUDA迎来史上最大更新!
机器之心· 2025-12-06 12:08
核心观点 - NVIDIA发布了CUDA Toolkit 13.1,这是其CUDA平台自2006年诞生以来20年最大的一次更新[2] - 此次更新的核心是引入了全新的、更高层级的CUDA Tile编程模型,旨在简化GPU编程,特别是针对AI领域的张量计算,并抽象化专用硬件细节[4][6][14] - 更新还包括对Green Context的运行时API支持、多进程服务(MPS)增强、开发者工具升级以及核心数学库的性能优化,全面提升了软件栈的能力和效率[18][23][31][37] CUDA Tile 编程模型 - **核心概念与优势**:CUDA Tile是一种基于Tile(数据块)的编程模型,允许开发者在高于传统单指令多线程(SIMT)的层级编写GPU核函数[6] 开发者只需指定数据块(Tile)和要在其上执行的数学运算,编译器和运行时环境会自动决定将工作负载分发到各线程的最佳方式,从而简化了高性能代码的编写[7][14] - **抽象硬件细节**:该模型屏蔽了调用Tensor Core等专用硬件的底层细节,并且使用CUDA Tile编写的代码将能够兼容当前及未来的GPU架构[8][14] - **组成组件**:CUDA 13.1包含两个用于Tile编程的组件:CUDA Tile IR(一种用于NVIDIA GPU编程的全新虚拟指令集架构)和cuTile Python(一种新的领域特定语言,用于在Python中编写基于数组和Tile的核函数)[9] - **当前支持与未来规划**:目前CUDA Tile仅支持NVIDIA Blackwell(计算能力10.x和12.x)系列产品,开发重点聚焦于AI算法的Tile编程[15] 公司计划在未来的CUDA版本中扩展对更多架构的支持,增加更多特性、功能并提升性能,同时引入C++实现[15] 运行时与多进程服务(MPS)更新 - **Green Context运行时支持**:自CUDA 13.1起,轻量级的Green Context正式在运行时API中开放使用,此前已在驱动API中提供[19][20] 它允许用户定义和管理GPU资源的独立分区(主要是流式多处理器SM),可用于确保高优先级、低延迟的任务始终有可用的SM资源[20] - **可定制的SM分区**:引入了更加可定制的`split()` API,使开发者能够通过单一接口构建此前需要多次API调用才能完成的SM分区,并配置工作队列以减少不同Green Context之间的伪依赖[21] - **内存局部性优化分区(MLOPart)**:这是NVIDIA Blackwell系列及更新GPU上的一项新特性,允许基于同一物理GPU创建多个专门优化内存局部性的独立CUDA设备,每个设备拥有更少的计算资源和更小的可用内存[24][26] 目前该功能仅支持NVIDIA B200与B300系列产品[27] - **静态流式多处理器(SM)分区**:针对NVIDIA Ampere架构及更新GPU,为MPS客户端提供了一种创建独占SM分区的方法,旨在提供确定性的资源分配并改善客户端之间的隔离性[28] 开发者工具与性能分析 - **Nsight Compute增强**:增加了对CUDA Tile核函数的性能分析支持,在摘要页新增“Result Type”列以区分Tile与SIMT核函数,在详情页新增“Tile Statistics”部分总结Tile维度和管线利用率,并在源码页支持将指标映射到高层级的cuTile源码[32][34] - **编译时修补与插桩**:NVIDIA Compute Sanitizer 2025.4通过`-fdevice-sanitize=memcheck`编译器标志,增加了对NVCC编译时修补的支持,增强了内存错误检测能力和工具性能[33] 编译时插桩可将错误检测直接集成到NVCC中,实现更快的运行速度并捕捉更隐蔽的内存问题[35] - **Nsight Systems新功能**:NVIDIA Nsight Systems 2025.6.1带来了系统级CUDA追踪、CUDA主机函数追踪、默认的CUDA硬件追踪模式以及显示SM分配情况的Green Context时间轴行等新追踪功能[40] 核心数学库性能更新 - **cuBLAS性能提升**:CUDA 13.1增加了对FP4、FP8和BF16数据类型的性能支持[38] 并引入了一项全新的实验性API,支持Blackwell GPU的分组GEMM功能,兼容FP8和BF16/FP16数据类型,在MoE用例中,其设备端形状可实现最高4倍的加速,优于多流GEMM实现[40] - **cuSOLVER性能增强**:针对Blackwell架构,用于特征分解的批处理SYEVD与GEEV API带来了显著的性能提升[41] 例如,批处理SYEV在NVIDIA Blackwell RTX Pro 6000 Server Edition上,相比NVIDIA L40S实现了约2倍的加速[41] 对于GEEV函数,当矩阵行数n=30000时,加速比达到约1.7[45] - **cuSPARSE新API**:引入了一种新的稀疏矩阵向量乘法(SpMVOp)API,与CsrMV API相比性能有所提升,支持CSR格式、32位索引、双精度以及用户自定义的后缀[40] - **cuFFT设备API**:引入了一套全新的cuFFT设备API,提供主机函数用于查询或生成设备功能代码和数据库元数据,旨在提升cuFFTDx库的性能[40] CUDA核心计算库(CCCL)更新 - **确定性浮点运算选项**:NVIDIA CCCL 3.1为`cub::DeviceReduce`提供了额外的浮点确定性选项,允许用户在确定性和性能之间进行权衡[49] - **更便捷的单相CUB API**:为一些接受内存资源的CUB算法添加了新的重载,使用户可以跳过繁琐的临时存储查询、分配和释放的两阶段调用模式,简化了API使用[51][52]