NVIDIA CUDA Toolkit 13.1 - 财报，业绩电话会，研报，新闻

NVIDIA CUDA Toolkit 13.1

搜索文档

21世纪经济报道· 2025-12-08 10:30

巨头动态与人事变动 - 马斯克否认SpaceX以8000亿美元（约5.7万亿元人民币）估值融资的消息，并指出公司现金流多年为正，估值提升取决于星舰和星链的进展，同时强调星链是最大收入来源，NASA收入占比明年将低于5% [2] - 苹果公司管理层经历近年来最激烈人事动荡，一周内有4名高管宣布离职，此前已有首席运营官、前首席财务官及大量AI人才离职，公司人力资源部门已接到加大招聘和留任力度的指示 [2] 人工智能与模型发布 - 腾讯混元发布最新版语言模型Tencent HY2.0Think和Tencent HY2.0Instruct，采用混合专家架构，总参数406B，激活参数32B，支持256K上下文窗口，相比前一版本显著改进了预训练数据和强化学习策略 [5] - 豆包手机助手澄清谣言，声明其操作需用户授权且无法跳过密码等认证环节，并已下线操作银行、互联网支付类APP的能力 [3] 硬件与半导体行业 - 联想、戴尔、惠普等PC厂商计划涨价，涨幅最高达20%，其中联想新报价将于2026年1月1日生效，戴尔考虑在12月中旬对PC和服务器产品涨价至少15%-20% [6] - 英伟达发布NVIDIA CUDA Toolkit 13.1，称为二十年来规模最大、内容最全面的更新，引入了基于tile的编程模型CUDA Tile并重写了编程指南 [10] - 中际旭创表示其3.2T光模块产品尚在研发和完善中，将根据行业趋势和客户需求布局产能 [12] - 芯片公司沐曦股份网上发行最终中签率为0.03348913%，昂瑞微网上发行最终中签率为0.03449153% [11] 航空航天与尖端技术 - 蓝箭航天披露朱雀三号火箭一级回收验证细节，火箭成功完成垂直回收技术飞行验证，经历了最具挑战性的超音速再入气动滑行阶段，并实现高精度制导控制 [6] - 光启技术公告其全资子公司光启尖端签订合计6.96亿元的超材料产品批产合同，产品预计在2026年12月31日前交付，将对公司2026年度经营业绩产生影响 [9] 机器人技术 - 众擎机器人发布演示视频，展示其T800机器人一脚踹翻75公斤重的公司CEO，该机器人身高1.73米，自重75千克，为首款“打工机器人”，售价18万元起 [7] 媒体娱乐与并购 - Netflix宣布以827亿美元（股权价值720亿美元）的企业估值收购华纳兄弟探索公司的影视工作室及流媒体业务，交易预计在2026年第三季度完成 [8] 公司治理与回应 - 新东方创始人俞敏洪回应员工写信吐槽加班事件，表示已要求相关部门调查并纠正问题，相关员工在岗正常上班 [10] 资本市场与投融资 - 百度集团公告澄清，公司正就分拆昆仑芯科技独立上市进行评估，但尚未做出决定，且需经监管审批 [14] - 佳华科技披露交易预案，拟通过发行股份及支付现金购买数盾科技90%股份，以实现数据安全与物联网平台的深度协同 [15] - 帝奥微公告终止发行股份及支付现金购买荣湃半导体100%股权并募集配套资金的事项 [16]

苹果现高管离职潮；百度澄清昆仑芯上市消息丨新鲜早科技

21世纪经济报道· 2025-12-08 10:20

巨头公司动态 - 马斯克否认SpaceX以8000亿美元（约5.7万亿元）估值融资强调公司现金流为正估值提升取决于星舰和星链进展并称NASA收入占比明年将低于5% 星链是最大收入来源 [2] - 苹果公司管理层经历近年来最激烈人事动荡过去一周有4名高管宣布离职今年早些时候有大量AI人才流向Meta、OpenAI 公司已指示人力资源团队加大招聘和留任力度 [2] - Netflix宣布以827亿美元（股权价值720亿美元）收购华纳兄弟探索公司的影视工作室及流媒体业务交易预计在2026年第三季度完成 [8] 人工智能与科技产品 - 腾讯发布最新版语言模型Tencent HY2.0 采用混合专家架构总参数406B 激活参数32B 支持256K上下文窗口 [4] - 豆包手机助手澄清谣言并宣布已下线操作银行、互联网支付类APP的能力 [3] - 众擎机器人发布T800演示视频该机器人身高1.73米自重75千克售价18万元起展示出体能输出与灵活操控能力 [7] 半导体与硬件行业 - 英伟达发布CUDA Toolkit 13.1 称为该平台二十年来规模最大、内容最全面的更新引入了新的编程模型和重写的编程指南 [10] - 联想、戴尔、惠普等PC厂商计划涨价涨幅最高达20% 联想新报价将于2026年1月1日生效戴尔涨价最快可能在12月中旬生效 [5] - 中际旭创表示 3.2T光模块产品尚在研发和完善中将根据行业趋势和客户需求布局产能 [12] - 沐曦股份网上发行最终中签率为0.03348913% 昂瑞微网上发行最终中签率为0.03449153% [11] 航天与尖端制造 - 蓝箭航天披露朱雀三号火箭一子级垂直回收验证细节火箭成功经历了超音速再入气动滑行阶段等挑战验证了相关控制策略与制导算法 [5][6] - 光启技术公告全资子公司光启尖端签订合计6.96亿元的超材料产品批产合同产品预计在2026年12月31日前完成交付 [9] 资本市场与公司交易 - 百度集团公告澄清公司正就分拆昆仑芯科技独立上市进行评估但不保证该事项将会进行 [13] - 佳华科技披露交易预案拟通过发行股份及支付现金购买数盾科技90%股份以构建以数据安全为核心的物联网大数据平台 [14] - 帝奥微公告公司董事会审议通过终止发行股份及支付现金购买荣湃半导体100%股权并募集配套资金的事项 [15] 其他行业要闻 - 新东方创始人俞敏洪回应员工公开信事件表示已要求相关部门调查并纠正问题相关员工在岗正常上班 [10]

具身智能之心· 2025-12-08 09:11

文章核心观点 - NVIDIA发布了CUDA Toolkit 13.1，这是其CUDA平台自2006年诞生以来规模最大、最全面的一次更新，核心是引入了全新的CUDA Tile编程模型，旨在通过更高层次的抽象来简化GPU编程，特别是针对AI领域的张量计算，并提升代码对未来GPU架构的兼容性 [1][2][4] CUDA Tile 编程模型 - **核心概念与优势**：CUDA Tile是一种基于Tile（数据块）的编程模型，允许开发者在高于传统单指令多线程（SIMT）的层级编写GPU核函数 [7] 开发者只需指定数据块（Tile）及要在其上执行的数学运算，编译器和运行时环境会自动决定将工作负载分发到各线程的最佳方式，从而屏蔽了调用Tensor Core等专用硬件的底层细节 [8][9] - **组成组件**：CUDA 13.1包含两个用于Tile编程的组件：1) CUDA Tile IR，一种用于NVIDIA GPU编程的全新虚拟指令集架构（ISA）；2) cuTile Python，一种新的领域特定语言（DSL），用于在Python中编写基于数组和Tile的核函数 [10] - **开发背景与目标**：随着AI工作负载演进，张量成为基础数据类型，专用硬件（如Tensor Core）日益复杂 [15] CUDA Tile的引入是为了提供一种比SIMT层级更高的新型GPU编程方式，抽象化Tensor Core及其编程模型，使编写的代码能兼容当前及未来的Tensor Core架构，简化高性能代码编写 [14][15] - **当前限制与规划**：目前CUDA Tile仅支持NVIDIA Blackwell（计算能力10.x和12.x）系列产品，开发重点聚焦于AI算法的Tile编程 [16] 英伟达计划在未来的CUDA版本中扩展对更多架构的支持、增加更多特性并引入C++实现 [16] 运行时与多进程服务（MPS）更新 - **Green Context（绿色上下文）**：这是一种轻量级的CUDA上下文替代方案，自CUDA 13.1起在运行时API中开放使用 [20][21] 它允许用户定义和管理GPU资源的独立分区（主要是流式多处理器SM），从而实现对GPU空间更细粒度的划分与资源分配，典型应用是确保高优先级、低延迟代码能获得专属的SM资源 [21] - **内存局部性优化分区（MLOPart）**：这是NVIDIA Blackwell系列及更新GPU上的一项新特性，允许基于同一物理GPU创建多个专门优化内存局部性的独立CUDA设备，每个设备拥有更少的计算资源和更小的可用内存 [25] 目前仅支持NVIDIA B200与B300系列，未来版本将加入对GB200与GB300系列的支持 [28] - **静态流式多处理器（SM）分区**：这是针对NVIDIA Ampere架构及更新GPU的MPS特性，为客户端提供创建独占SM分区的方法，旨在提供确定性的资源分配并改善客户端间的隔离性 [29] 数学库性能增强 - **cuBLAS性能更新**：CUDA 13.1增加了对FP4、FP8和BF16数据类型的性能支持 [40] 并引入了一项全新的实验性API，支持Blackwell GPU的分组GEMM功能，兼容FP8和BF16/FP16数据类型，在MoE用例中，其设备端形状可实现最高4倍的加速，优于多流GEMM实现 [41] - **cuSOLVER性能更新**：CUDA 13.1继续优化用于特征分解的批处理SYEVD与GEEV API [42] 在批大小为5,000的测试中，与NVIDIA L40S相比，NVIDIA Blackwell RTX Pro 6000 Server Edition实现了约2倍的加速 [42] 对于一般稠密矩阵特征值计算（GEEV），当矩阵行数n=5000时加速比约为1.0，在n=30000时达到约1.7 [45][46] 开发者工具更新 - **Nsight Compute增强**：增加了对CUDA Tile核函数的性能分析支持，在摘要页新增“Result Type”列以区分Tile与SIMT核函数，在详情页新增“Tile Statistics”部分总结Tile维度和管线利用率，并在源码页支持将指标映射到高层级的cuTile核函数源码 [33][35] - **编译时修补与插桩**：NVIDIA Compute Sanitizer 2025.4通过编译器标志增加了对NVCC编译时修补的支持，增强了内存错误检测能力并提升了性能 [34] 编译时插桩功能可将错误检测直接集成到NVCC中，实现更快的运行速度并通过高级分析捕捉更隐蔽的内存问题 [36] - **Nsight Systems更新**：2025.6.1版本带来了系统级CUDA追踪、CUDA主机函数追踪、默认硬件模式追踪等新功能，并在时间轴行中显示Green Context的SM分配情况以帮助理解GPU资源利用率 [41] CUDA核心计算库（CCCL）更新 - **确定性浮点运算选项**：NVIDIA CCCL 3.1为cub::DeviceReduce提供了额外的浮点确定性选项，允许用户在确定性和性能之间进行权衡 [50] 新增“GPU间”选项可保证在不同GPU间运行得到逐位相同的结果 [53] - **更便捷的单相CUB API**：CCCL 3.1为一些CUB算法添加了新的重载，允许用户跳过繁琐的临时存储查询、分配和释放两阶段调用模式，简化了API使用 [54][55]

NVIDIA CUDA Toolkit 13.1

CUDA Tile

NVIDIA CUDA Core计算库 (CCCL)

Tile编程

SIMT编程

半导体

NVIDIA CUDA Toolkit 13.1

CUDA Tile

NVIDIA CUDA Core计算库 (CCCL)

刚刚，英伟达CUDA迎来史上最大更新！

机器之心· 2025-12-06 12:08

核心观点 - NVIDIA发布了CUDA Toolkit 13.1，这是其CUDA平台自2006年诞生以来20年最大的一次更新[2] - 此次更新的核心是引入了全新的、更高层级的CUDA Tile编程模型，旨在简化GPU编程，特别是针对AI领域的张量计算，并抽象化专用硬件细节[4][6][14] - 更新还包括对Green Context的运行时API支持、多进程服务（MPS）增强、开发者工具升级以及核心数学库的性能优化，全面提升了软件栈的能力和效率[18][23][31][37] CUDA Tile 编程模型 - **核心概念与优势**：CUDA Tile是一种基于Tile（数据块）的编程模型，允许开发者在高于传统单指令多线程（SIMT）的层级编写GPU核函数[6] 开发者只需指定数据块（Tile）和要在其上执行的数学运算，编译器和运行时环境会自动决定将工作负载分发到各线程的最佳方式，从而简化了高性能代码的编写[7][14] - **抽象硬件细节**：该模型屏蔽了调用Tensor Core等专用硬件的底层细节，并且使用CUDA Tile编写的代码将能够兼容当前及未来的GPU架构[8][14] - **组成组件**：CUDA 13.1包含两个用于Tile编程的组件：CUDA Tile IR（一种用于NVIDIA GPU编程的全新虚拟指令集架构）和cuTile Python（一种新的领域特定语言，用于在Python中编写基于数组和Tile的核函数）[9] - **当前支持与未来规划**：目前CUDA Tile仅支持NVIDIA Blackwell（计算能力10.x和12.x）系列产品，开发重点聚焦于AI算法的Tile编程[15] 公司计划在未来的CUDA版本中扩展对更多架构的支持，增加更多特性、功能并提升性能，同时引入C++实现[15] 运行时与多进程服务（MPS）更新 - **Green Context运行时支持**：自CUDA 13.1起，轻量级的Green Context正式在运行时API中开放使用，此前已在驱动API中提供[19][20] 它允许用户定义和管理GPU资源的独立分区（主要是流式多处理器SM），可用于确保高优先级、低延迟的任务始终有可用的SM资源[20] - **可定制的SM分区**：引入了更加可定制的`split()` API，使开发者能够通过单一接口构建此前需要多次API调用才能完成的SM分区，并配置工作队列以减少不同Green Context之间的伪依赖[21] - **内存局部性优化分区（MLOPart）**：这是NVIDIA Blackwell系列及更新GPU上的一项新特性，允许基于同一物理GPU创建多个专门优化内存局部性的独立CUDA设备，每个设备拥有更少的计算资源和更小的可用内存[24][26] 目前该功能仅支持NVIDIA B200与B300系列产品[27] - **静态流式多处理器（SM）分区**：针对NVIDIA Ampere架构及更新GPU，为MPS客户端提供了一种创建独占SM分区的方法，旨在提供确定性的资源分配并改善客户端之间的隔离性[28] 开发者工具与性能分析 - **Nsight Compute增强**：增加了对CUDA Tile核函数的性能分析支持，在摘要页新增“Result Type”列以区分Tile与SIMT核函数，在详情页新增“Tile Statistics”部分总结Tile维度和管线利用率，并在源码页支持将指标映射到高层级的cuTile源码[32][34] - **编译时修补与插桩**：NVIDIA Compute Sanitizer 2025.4通过`-fdevice-sanitize=memcheck`编译器标志，增加了对NVCC编译时修补的支持，增强了内存错误检测能力和工具性能[33] 编译时插桩可将错误检测直接集成到NVCC中，实现更快的运行速度并捕捉更隐蔽的内存问题[35] - **Nsight Systems新功能**：NVIDIA Nsight Systems 2025.6.1带来了系统级CUDA追踪、CUDA主机函数追踪、默认的CUDA硬件追踪模式以及显示SM分配情况的Green Context时间轴行等新追踪功能[40] 核心数学库性能更新 - **cuBLAS性能提升**：CUDA 13.1增加了对FP4、FP8和BF16数据类型的性能支持[38] 并引入了一项全新的实验性API，支持Blackwell GPU的分组GEMM功能，兼容FP8和BF16/FP16数据类型，在MoE用例中，其设备端形状可实现最高4倍的加速，优于多流GEMM实现[40] - **cuSOLVER性能增强**：针对Blackwell架构，用于特征分解的批处理SYEVD与GEEV API带来了显著的性能提升[41] 例如，批处理SYEV在NVIDIA Blackwell RTX Pro 6000 Server Edition上，相比NVIDIA L40S实现了约2倍的加速[41] 对于GEEV函数，当矩阵行数n=30000时，加速比达到约1.7[45] - **cuSPARSE新API**：引入了一种新的稀疏矩阵向量乘法（SpMVOp）API，与CsrMV API相比性能有所提升，支持CSR格式、32位索引、双精度以及用户自定义的后缀[40] - **cuFFT设备API**：引入了一套全新的cuFFT设备API，提供主机函数用于查询或生成设备功能代码和数据库元数据，旨在提升cuFFTDx库的性能[40] CUDA核心计算库（CCCL）更新 - **确定性浮点运算选项**：NVIDIA CCCL 3.1为`cub::DeviceReduce`提供了额外的浮点确定性选项，允许用户在确定性和性能之间进行权衡[49] - **更便捷的单相CUB API**：为一些接受内存资源的CUB算法添加了新的重载，使用户可以跳过繁琐的临时存储查询、分配和释放的两阶段调用模式，简化了API使用[51][52]

NVIDIA CUDA Toolkit 13.1

NVIDIA CUDA Toolkit 13.1

CUDA Tile

cuSOLVER