Workflow
NVFP4
icon
搜索文档
英伟达2025年技术图鉴,强的可怕......
自动驾驶之心· 2025-12-06 11:04
英伟达公司发展里程碑与战略定位 - 公司于1993年成立,已完成从图形芯片到AI巨头的演进,市值在2025年10月底达到5万亿美元,是3年前的11倍 [2] - 发展关键节点包括:1999年推出GeForce 256,2006年CUDA问世,2012年支持AlexNet,2020年开始发布高端计算GPU,2021年开始发布端侧芯片(ORIN/Thor)[2] - 公司是AI基础设施的第一巨头,但其野心不局限于硬件,2025年在自动驾驶、具身智能、大模型和世界模型等最热AI赛道上产出了多篇重量级工作 [2] Cosmos系列世界基础模型平台 - 该系列从2025年1月开始布局,是面向物理AI的世界基础模型平台,衍生出Cosmos-Transfer1、Cosmos-Reason1、Cosmos-Predict2.5等工作,为下游自动驾驶和具身智能奠定基座 [5] - **Cosmos-Predict2.5**:新一代物理AI视频世界基础模型,基于流匹配架构统一了文本、图像、视频到世界的生成能力,并引入物理AI专用VLM——Cosmos-Reason1进行文本嵌入与细粒度控制 [17] - Cosmos-Predict2.5构建了包含2亿精选视频片段的大规模训练数据集,并针对机器人、自动驾驶等五大领域进行专项数据整理 [17] - 其控制网络变体Cosmos-Transfer2.5支持多模态控制信号输入,模型规模减小3.5倍的同时实现更高生成质量,支持长达120秒的长视频连贯生成 [17] - 模型支持多摄像头同步视频生成(如自动驾驶7视角),并实现基于相机轨迹的视角重渲染 [17] - 采用基于VLM奖励模型的强化学习对生成质量进行对齐优化,并使用时步蒸馏技术将推理步数大幅减少至4步 [17] - 全面开源2B与14B规模的预训练与后训练模型,在PAI-Bench等物理AI基准测试中取得领先性能 [17] - **Cosmos-Transfer1**:基于扩散模型的多模态可控世界生成框架,通过自适应空间-时间控制权重机制,根据不同模态输入生成高质量世界仿真视频 [37] - Cosmos-Transfer1构建了面向自动驾驶的高质量数据集RDS-HQ,包含360小时的高清地图、3D检测框与LiDAR同步标注 [37] - 通过基于NVIDIA GB200 NVL72系统的并行推理策略,在64块GPU上实现5秒720p视频的实时生成 [37] - **Cosmos-Reason1**:旨在赋予多模态大语言模型“物理常识”与“具身推理”能力,通过定义层次化的物理常识本体与二维具身推理本体,采用“监督微调+强化学习”的两阶段训练范式 [32] - Cosmos-Reason1构建了包含约4M视频-文本对的训练数据集,以及包含604个问题的物理常识推理基准和涵盖6个数据集、610个问题的具身推理基准 [32] - 实验表明,经过物理AI SFT后,模型在物理常识和具身推理基准上的性能较基线VLM提升超过10%,进一步的物理AI RL训练能在多数任务上再带来超过5%的性能提升 [33] Nemotron系列AI智能体模型 - Nemotron系列是公司为代理式AI时代打造的“数字大脑”,通过提供开放、高效、精准的模型和工具,让企业能够快速构建专业AI智能体 [5] - **Nemotron Nano V2 VL**:一个高效的12B视觉语言模型,通过混合Mamba-Transformer架构、多阶段训练策略和高效推理优化,在文档理解、长视频推理等多模态任务中实现了SOTA性能 [12] - 该模型将上下文长度从16K扩展至128K,支持长视频、多页文档等复杂场景理解 [12] - 集成Efficient Video Sampling技术提升视频处理吞吐量,支持FP8与FP4量化,适用于资源受限环境 [12] - 在OCRBench v2、MMMU、ChartQA、Video-MME等45个多模态基准测试中表现优异 [12] - 公开发布包含超过800万样本的Nemotron VLM Dataset V2,以及NVPDFTex等标注工具 [12] - **Nemotron Nano 2**:面向推理任务的高效混合架构语言模型,结合Mamba-2层与自注意力层,在保持高精度的同时,实现了最高达6倍的推理吞吐量提升,并支持128k长上下文推理 [26] - 采用FP8混合精度训练配方与分阶段课程学习策略,在20T token上完成预训练 [26] - 通过基于Minitron的轻量级剪枝与蒸馏策略,将12B模型压缩至9B,使其能够在单张NVIDIA A10G GPU(22GB显存)上以128k上下文进行推理 [26] - **Nemotron-H系列**:采用创新的混合Mamba-Transformer架构,用计算和内存需求恒定的Mamba层替代绝大部分自注意力层,在保证高精度的前提下,实现了高达3倍的推理速度提升 [27][28] - 在65k输入、1k输出场景下,吞吐量达同类Transformer的2-3倍 [29] - 提出模型压缩范式MiniPuzzle,将56B模型压缩为47B模型,仅用极少量(63B)token进行蒸馏便恢复精度,并在长上下文推理中实现额外20%的加速 [31] - 为56B大模型成功实施了以FP8精度为主的层wise混合精度预训练方案,在长达20万亿token的训练中稳定 [31] - 基于该骨干网络构建的VLM模型在多项视觉语言基准(如MMMU, MathVista)上达到SOTA水平 [31] 具身智能与机器人系列 - 公司正在深入布局具身智能,主要工作包括GR00T N1和Isaac Lab,一手具身VLA,一手仿真平台 [5] - **GR00T N1**:一个面向通用人形机器人的开放式视觉-语言-动作基础模型,采用双系统架构,通过构建“数据金字塔”进行大规模预训练 [35] - 双系统VLA架构将视觉语言模型作为慢速推理模块,与基于扩散Transformer的快速动作生成模块端到端联合训练 [35] - 数据金字塔训练策略构建了从海量人类视频、仿真与神经生成数据到真实机器人轨迹的异构数据体系 [35] - 使用单一模型权重支持从单臂机械臂到双手机巧人形机器人等多种机器人形态,在低数据场景下表现出卓越的样本效率 [35] - 公开发布了GROOT-N1-2B模型检查点、训练数据集及仿真基准 [35] - **Isaac Lab**:一个GPU加速的多模态机器人学习仿真框架,集高保真物理、照片级渲染与模块化环境设计于一体 [6] - 提出了统一且可扩展的仿真范式,将GPU并行物理、实时射线追踪渲染与通用场景描述深度集成 [6] - 设计了全面的多模态传感器仿真套件,涵盖基于物理的传感器、基于渲染的相机以及基于Warp的几何传感器 [6] - 实现了从数据生成到策略部署的端到端学习工作流支持,内置了强化学习、模仿学习等多种学习范式 [6] - 通过模块化的“管理器”架构与底层Tensor API,在保持高性能GPU原生计算的同时,为研究者提供了灵活控制 [6] 自动驾驶系列 - 2025年11月发布的Alpamayo-R1在自驾行业引起轰动,是公司在自驾VLA上的重要尝试 [5] - **Alpamayo-R1**:一种融合因果推理与轨迹规划的视觉-语言-动作模型,旨在解决端到端自动驾驶在长尾安全关键场景中的性能瓶颈 [13] - 提出了Chain of Causation数据集,通过人机协同标注流程构建具有因果关联的结构化推理轨迹 [13] - 设计了模块化推理VLA架构,以物理AI预训练的Cosmos-Reason为骨干,结合基于流匹配的轨迹解码器,实现99ms延迟的实时轨迹生成 [16] - 提出了多阶段训练策略,包括动作模态注入、基于CoC的监督微调以及基于大推理模型反馈的强化学习后训练 [16] - 在闭环仿真与实车测试中,相比仅预测轨迹的基线模型,Alpamayo-R1在挑战性场景中规划准确率提升最高达12%,脱轨率降低35%,近距离接触率降低25%,推理质量与推理-动作一致性分别提升45%与37% [16] 高效训练与底层技术 - **NVFP4**:一种新型4位浮点格式的高效训练方法,通过混合精度、随机哈达玛变换、二维权重缩放与随机舍入等关键技术,成功在120亿参数模型上进行了长达10万亿token的稳定训练 [19] - 在120亿参数的混合Mamba-Transformer模型上,使用NVFP4格式完成10万亿token预训练,其验证损失与FP8基线全程紧密吻合(相对误差<1.5%),下游任务准确率可比拟 [19] - 对比实验证明,NVFP4在达到相同训练损失时,所需的训练token数比MXFP4少约36% [19] - 相关工作已在NVIDIA Blackwell GPU上通过Transformer Engine获得全面支持 [19] 数字人与动画生成 - **Audio2Face-3D**:一个基于深度学习的端到端音频驱动三维面部动画系统,能够从单一语音输入实时生成高保真、口型同步且带情感表达的全脸动画 [21] - 提出了双网络架构设计:基于回归的轻量级网络支持低延迟单帧推理;基于扩散模型的高质量网络以流式方式生成连续30帧动画,支持多身份条件生成 [21] - 构建了基于专业演员多情感语音捕获的4D面部数据集,并采用语音转换、文本转语音对齐与静默数据插入三种增强方法提升数据多样性 [21] - 开发了可重定向的混合形状求解器,可将生成的面部顶点运动转化为标准的ARKit混合形状权重,支持将动画无缝重定向至不同角色模型 [21] - 系统支持在线流式音频输入并实时生成动画,推理延迟低,并提供丰富的后处理参数面板 [21]
计算机行业周报:政策助推AI产业发展,长期成长空间广阔-20250901
国元证券· 2025-09-01 12:41
行业投资评级 - 推荐|维持 [6] 核心观点 - 国务院发布《关于深入实施"人工智能+"行动的意见》,提出到2027年实现人工智能与六大重点领域(科学技术、产业发展、消费提质、民生福祉、治理能力、全球合作)深度融合,并规划八大基础支撑方向(模型基础能力、数据供给创新、智能算力统筹等)[3][21] - 到2030年人工智能全面赋能高质量发展,智能终端和智能体应用普及率超90%,智能经济成为重要增长极;到2035年全面步入智能经济和智能社会发展新阶段[3][21] - 人工智能产业进入落地阶段,政策驱动产业深度融合,建议关注具备AI应用落地能力的上市公司,重点考察业务落地节奏及对业绩的贡献程度[4][22] 市场表现 - 计算机(申万)指数本周上涨1.34%,延续前两周上涨趋势;上证指数涨0.84%,深证成指涨4.36%,创业板指涨7.74%[1][11] - 细分板块表现:计算机设备涨0.03%、IT服务Ⅱ涨2.91%、软件开发涨0.86%[1][13] - 个股涨幅前三:开普云涨133.74%、航天宏图涨45.29%、ST易联众涨40.80%[13] 重点公司业绩 - 能科科技2025年上半年营收7.38亿元(同比+4.91%),归母净利润1.11亿元(同比+18.75%)[2][19] - 海兰信营收4.87亿元(同比+208.66%),归母净利润0.34亿元(同比+172.44%)[2][19] - 天地数码营收4.31亿元(同比+19.58%),归母净利润0.63亿元(同比+32.37%)[2][20] - 广联达营收27.84亿元(同比-5.23%),但归母净利润2.37亿元(同比+23.65%)[19] - 安博通营收4.29亿元(同比+123.98%),但归母净利润亏损1.09亿元[19] 行业重大事件 - OpenAI与Anthropic首次合作评估模型安全性,Claude模型拒绝70%不确定问题,OpenAI模型幻觉率更高[16] - 谷歌推出原生图像生成模型"Nano-Banana",支持多轮对话及像素级编辑,生成5张高清图仅需13秒[16] - 英伟达推出4-bit精度训练格式NVFP4,在Blackwell Ultra上性能较Hopper提升7倍,可节省算力及电力成本[16] - 英伟达发布机器人芯片Jetson Thor,算力达2070 FP4 TFLOPS(上代7.5倍),内存128G,宇树科技等中国厂商首发搭载[19] - 英伟达Q2营收467.43亿美元(同比+56%),数据中心营收411亿美元(同比+56%),Blackwell数据中心营收环比增17%[19]
腾讯研究院AI速递 20250828
腾讯研究院· 2025-08-28 00:01
英伟达NVFP4技术突破 - 推出NVFP4新格式 以4-bit精度实现16-bit训练精度 在Blackwell Ultra上性能较Hopper架构提升7倍 [1] - 采用微块缩放 E4M3高精度块编码 哈达玛变换和随机舍入技术 解决低精度训练中的动态范围 梯度波动性和数值稳定性问题 [1] - 与AWS 谷歌云 OpenAI等机构合作 在万亿级令牌规模下实现稳定收敛 节省大量算力和电力成本 [1] 谷歌Gemini 2.5 Flash图像模型 - 发布gemini-2.5-flash-image-preview模型 拥有SOTA图像生成与编辑能力 出色角色一致性和极快速度 [2] - 支持32k上下文 每张图像生成成本仅0.28元 比OpenAI便宜95% 在Google AI Studio和Gemini API提供预览 [2] - 图像编辑功能卓越 支持换装 换场景 合成照片和多轮编辑 在Artificial Analysis图像编辑类别排名第一 LM Arena多项指标夺冠 [2] Anthropic浏览器扩展发布 - 推出Claude for Chrome浏览器扩展 可帮助用户设日历 回邮件 找房等任务 在侧边窗口保留浏览器活动上下文 [3] - 目前仅向1000名Max套餐用户开放测试 主要考虑安全因素 防范提示注入攻击 设置限制访问特定网站功能 [3] - AI浏览器成为巨头争夺新战场 Perplexity推出Comet 微软Edge集成Copilot 谷歌Chrome集成Gemini OpenAI将发布AI浏览器 [3] PixVerse视频生成技术升级 - V5视频生成模型大幅提升速度 5秒生成360p短片 1分钟完成1080p高清视频 降低AI视频创作时间和成本 [4] - 优化动态 清晰度 一致性和指令理解能力 增强人物场景一致性 提供更接近真实拍摄效果 [4] - 新增续写和Agent智能体功能 视频可丝滑延长至30秒 提供多种创意模板 降低普通用户视频创作门槛 [4] DeepMind健康大模型突破 - 发布基于Gemini微调的健康大语言模型PH-LLM 能将可穿戴设备数据转化为个性化健康建议 在睡眠和运动领域表现优异 [5][6] - 在睡眠医学考试中得分79%超过医生76% 在健身认证考试中表现88%远超专家71% 能根据传感器数据预测用户睡眠质量 [6] - 采用两阶段训练 先对完整模型进行睡眠和健康领域微调 再增加多模态适配器预测睡眠障碍 根据个体传感器数据生成高度个性化建议 [6] 腾讯开放原子大赛 - 开放原子大赛腾讯赛题第二期启动 新增AI播客和数据库方向赛题 总奖金40万元 全球招募开发者 [7] - 混元AI播客创新智造挑战赛奖金10万元 基于混元开源模型开发三类AI播客技术 文本转多角色对话 契合风格播客和深度话题播客 [7] - 包括OpenTenBase-TXSQL改写优化挑战赛30万元 决赛11月在腾讯深圳总部举行 优胜方案代码有机会融入开源项目 [7] SpaceX星舰技术进展 - 星舰第十次综合飞行测试成功执行 由第二代星舰S37和B16助推器组成 完成星链卫星模拟器部署等关键任务 [8] - B16助推器测试飞行极限和发动机系统冗余设计 S37飞船完成猛禽发动机太空点火 重入大气层并溅落印度洋 [8] - 关键任务包括测试易受损区域耐受度 不同隔热瓦性能 捕捉连接件热性能和襟翼极限 为载人和火星移民计划铺平道路 [8] AI对美国就业市场影响 - 斯坦福报告显示自2022年末以来AI暴露度越高职业就业增长越慢 22-25岁劳动者在高AI暴露度职业中就业率下降明显 [9] - AI对就业影响体现在替代或增强人类工作能力 用于替代工作时年轻劳动者就业率下降 用于增强时就业率上升 [9] - 高AI暴露职业年轻劳动者有13%相对就业下降率 AI主要替代年轻人掌握的编码知识 较少替代年长者积累的隐性知识 [9] 大模型技术决策与Agent发展 - 大模型技术从预训练/SFT转向预训练/强化学习 从缸中之脑转向Agentic系统 K2模型采用MoE架构和Muon优化器实现更高token效率 [10][11] - Agent泛化性追求通用性而非简单模拟人类行为 可能需要用更多AI训练AI和InnovationL4解决AgentL3问题 [11] - 将OpenAI的L1-L5分级视为非线性技术里程碑 认为AGI是方向而非终点 组织管理需要平衡SFT和RL [11]
DeepSeek刚提到FP8,英伟达就把FP4精度推向预训练,更快、更便宜
机器之心· 2025-08-27 18:40
文章核心观点 - DeepSeek采用UE8M0 FP8量化策略,针对下一代国产芯片设计,展现国产软硬件一体化生态建设路径[1][4] - 英伟达推出NVFP4 4比特预训练方案,声称匹配16位精度但以4位速度运行,重新定义大规模模型训练方式[5][6][13] - 低精度量化(如FP8/FP4)通过减少存储计算开销、提升吞吐量,成为AI工厂提升算力效率的战略优势[2][8][11] FP8量化技术发展 - FP8为8位浮点数格式,相比FP32/FP16降低存储计算开销同时保持数值稳定性[2] - 微软、Meta、英特尔、AMD等企业均在研究FP8训练与推理,有望成为业界新标准[3] - DeepSeek主动采用UE8M0 FP8格式,推动硬件和工具链适配,加速国产软硬件生态建设[4] NVFP4技术突破 - NVFP4支持4比特预训练,在120亿参数模型上经10万亿token训练验证,精度与FP8相当[26][31] - 关键技术包括微块缩放(每16元素共享缩放因子)、E4M3高精度块编码、张量分布重塑及量化一致性保持[18][19][20][21] - Blackwell架构原生支持FP4,GB300相比Hopper实现GEMM运算7倍加速,提升矩阵计算效率[13][17] 低精度量化的行业影响 - AI工厂核心指标为token吞吐量,低精度格式通过提升算术运算效率释放算力潜能[8][9][10] - 4比特预训练可减少内存需求、优化通信效率,在相同硬件下处理更多token且保持精度[10][11] - 低精度训练推动高性能AI模型开发,支持更大规模模型训练和更快速实验迭代[6][15] 应用与生态合作 - NVFP4目前处于研究阶段,合作方包括AWS、Cohere、Google Cloud、Microsoft AI等领先组织[6] - 低精度量化与边缘计算结合(如Jetson Thor芯片),实现从训练到部署的高效能效闭环[7] - 行业争议点在于低精度虽提升单次训练效率,但可能无法缓解AI总体算力需求扩张带来的能源压力[6]
推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型
量子位· 2025-08-11 15:48
核心观点 - OpenAI在gpt-oss开源模型中采用MXFP4数据类型,显著降低推理成本75%,同时内存占用减少至BF16模型的1/4,生成token速度提升4倍[1][5] - MXFP4量化技术使1200亿参数模型可运行于80GB显存显卡,16GB显存显卡可支持200亿参数版本[2] - 该技术通过压缩权重存储(半字节/参数)和优化内存带宽,实现降本增效[7][12][14] 技术细节 MXFP4特性 - 采用4位微缩放浮点数(MXFP4),权重存储大小仅为FP32的1/8[12][15] - 通过32个高精度数值共享8位缩放因子,平衡数据压缩与精度[20][22] - 硬件兼容性强,无需原生支持FP4(如Nvidia H100)[26][27] 性能对比 - 1200亿参数模型总参数量116.83B,Checkpoint Size 60.8GiB;200亿参数版本总参数量20.91B,Checkpoint Size 12.8GiB[3] - Nvidia Blackwell芯片FP4运算性能达9 petaFLOPS,较BF16(2.2 petaFLOPS)提升显著[24] 行业应用 - 90%的gpt-oss模型权重采用MXFP4量化,直接降低运行成本[4] - 行业趋势显示FP8量化已无显著质量损失,DeepSeek等公司直接使用FP8训练[30][31] - 英伟达推出NVFP4作为竞品,缩放块大小更小(16 vs MXFP4的32),精度更高[33] 技术局限性 - MXFP4可能因缩放块粒度不足导致质量下降,需权衡精度与计算效率[32] - 低精度数据类型(如FP4)传统上被视为性价比妥协,但MXFP4通过优化实现可行性[29][34]