NVFP4

搜索文档
计算机行业周报:政策助推AI产业发展,长期成长空间广阔-20250901
国元证券· 2025-09-01 12:41
行业投资评级 - 推荐|维持 [6] 核心观点 - 国务院发布《关于深入实施"人工智能+"行动的意见》,提出到2027年实现人工智能与六大重点领域(科学技术、产业发展、消费提质、民生福祉、治理能力、全球合作)深度融合,并规划八大基础支撑方向(模型基础能力、数据供给创新、智能算力统筹等)[3][21] - 到2030年人工智能全面赋能高质量发展,智能终端和智能体应用普及率超90%,智能经济成为重要增长极;到2035年全面步入智能经济和智能社会发展新阶段[3][21] - 人工智能产业进入落地阶段,政策驱动产业深度融合,建议关注具备AI应用落地能力的上市公司,重点考察业务落地节奏及对业绩的贡献程度[4][22] 市场表现 - 计算机(申万)指数本周上涨1.34%,延续前两周上涨趋势;上证指数涨0.84%,深证成指涨4.36%,创业板指涨7.74%[1][11] - 细分板块表现:计算机设备涨0.03%、IT服务Ⅱ涨2.91%、软件开发涨0.86%[1][13] - 个股涨幅前三:开普云涨133.74%、航天宏图涨45.29%、ST易联众涨40.80%[13] 重点公司业绩 - 能科科技2025年上半年营收7.38亿元(同比+4.91%),归母净利润1.11亿元(同比+18.75%)[2][19] - 海兰信营收4.87亿元(同比+208.66%),归母净利润0.34亿元(同比+172.44%)[2][19] - 天地数码营收4.31亿元(同比+19.58%),归母净利润0.63亿元(同比+32.37%)[2][20] - 广联达营收27.84亿元(同比-5.23%),但归母净利润2.37亿元(同比+23.65%)[19] - 安博通营收4.29亿元(同比+123.98%),但归母净利润亏损1.09亿元[19] 行业重大事件 - OpenAI与Anthropic首次合作评估模型安全性,Claude模型拒绝70%不确定问题,OpenAI模型幻觉率更高[16] - 谷歌推出原生图像生成模型"Nano-Banana",支持多轮对话及像素级编辑,生成5张高清图仅需13秒[16] - 英伟达推出4-bit精度训练格式NVFP4,在Blackwell Ultra上性能较Hopper提升7倍,可节省算力及电力成本[16] - 英伟达发布机器人芯片Jetson Thor,算力达2070 FP4 TFLOPS(上代7.5倍),内存128G,宇树科技等中国厂商首发搭载[19] - 英伟达Q2营收467.43亿美元(同比+56%),数据中心营收411亿美元(同比+56%),Blackwell数据中心营收环比增17%[19]
腾讯研究院AI速递 20250828
腾讯研究院· 2025-08-28 00:01
英伟达NVFP4技术突破 - 推出NVFP4新格式 以4-bit精度实现16-bit训练精度 在Blackwell Ultra上性能较Hopper架构提升7倍 [1] - 采用微块缩放 E4M3高精度块编码 哈达玛变换和随机舍入技术 解决低精度训练中的动态范围 梯度波动性和数值稳定性问题 [1] - 与AWS 谷歌云 OpenAI等机构合作 在万亿级令牌规模下实现稳定收敛 节省大量算力和电力成本 [1] 谷歌Gemini 2.5 Flash图像模型 - 发布gemini-2.5-flash-image-preview模型 拥有SOTA图像生成与编辑能力 出色角色一致性和极快速度 [2] - 支持32k上下文 每张图像生成成本仅0.28元 比OpenAI便宜95% 在Google AI Studio和Gemini API提供预览 [2] - 图像编辑功能卓越 支持换装 换场景 合成照片和多轮编辑 在Artificial Analysis图像编辑类别排名第一 LM Arena多项指标夺冠 [2] Anthropic浏览器扩展发布 - 推出Claude for Chrome浏览器扩展 可帮助用户设日历 回邮件 找房等任务 在侧边窗口保留浏览器活动上下文 [3] - 目前仅向1000名Max套餐用户开放测试 主要考虑安全因素 防范提示注入攻击 设置限制访问特定网站功能 [3] - AI浏览器成为巨头争夺新战场 Perplexity推出Comet 微软Edge集成Copilot 谷歌Chrome集成Gemini OpenAI将发布AI浏览器 [3] PixVerse视频生成技术升级 - V5视频生成模型大幅提升速度 5秒生成360p短片 1分钟完成1080p高清视频 降低AI视频创作时间和成本 [4] - 优化动态 清晰度 一致性和指令理解能力 增强人物场景一致性 提供更接近真实拍摄效果 [4] - 新增续写和Agent智能体功能 视频可丝滑延长至30秒 提供多种创意模板 降低普通用户视频创作门槛 [4] DeepMind健康大模型突破 - 发布基于Gemini微调的健康大语言模型PH-LLM 能将可穿戴设备数据转化为个性化健康建议 在睡眠和运动领域表现优异 [5][6] - 在睡眠医学考试中得分79%超过医生76% 在健身认证考试中表现88%远超专家71% 能根据传感器数据预测用户睡眠质量 [6] - 采用两阶段训练 先对完整模型进行睡眠和健康领域微调 再增加多模态适配器预测睡眠障碍 根据个体传感器数据生成高度个性化建议 [6] 腾讯开放原子大赛 - 开放原子大赛腾讯赛题第二期启动 新增AI播客和数据库方向赛题 总奖金40万元 全球招募开发者 [7] - 混元AI播客创新智造挑战赛奖金10万元 基于混元开源模型开发三类AI播客技术 文本转多角色对话 契合风格播客和深度话题播客 [7] - 包括OpenTenBase-TXSQL改写优化挑战赛30万元 决赛11月在腾讯深圳总部举行 优胜方案代码有机会融入开源项目 [7] SpaceX星舰技术进展 - 星舰第十次综合飞行测试成功执行 由第二代星舰S37和B16助推器组成 完成星链卫星模拟器部署等关键任务 [8] - B16助推器测试飞行极限和发动机系统冗余设计 S37飞船完成猛禽发动机太空点火 重入大气层并溅落印度洋 [8] - 关键任务包括测试易受损区域耐受度 不同隔热瓦性能 捕捉连接件热性能和襟翼极限 为载人和火星移民计划铺平道路 [8] AI对美国就业市场影响 - 斯坦福报告显示自2022年末以来AI暴露度越高职业就业增长越慢 22-25岁劳动者在高AI暴露度职业中就业率下降明显 [9] - AI对就业影响体现在替代或增强人类工作能力 用于替代工作时年轻劳动者就业率下降 用于增强时就业率上升 [9] - 高AI暴露职业年轻劳动者有13%相对就业下降率 AI主要替代年轻人掌握的编码知识 较少替代年长者积累的隐性知识 [9] 大模型技术决策与Agent发展 - 大模型技术从预训练/SFT转向预训练/强化学习 从缸中之脑转向Agentic系统 K2模型采用MoE架构和Muon优化器实现更高token效率 [10][11] - Agent泛化性追求通用性而非简单模拟人类行为 可能需要用更多AI训练AI和InnovationL4解决AgentL3问题 [11] - 将OpenAI的L1-L5分级视为非线性技术里程碑 认为AGI是方向而非终点 组织管理需要平衡SFT和RL [11]
DeepSeek刚提到FP8,英伟达就把FP4精度推向预训练,更快、更便宜
机器之心· 2025-08-27 18:40
文章核心观点 - DeepSeek采用UE8M0 FP8量化策略,针对下一代国产芯片设计,展现国产软硬件一体化生态建设路径[1][4] - 英伟达推出NVFP4 4比特预训练方案,声称匹配16位精度但以4位速度运行,重新定义大规模模型训练方式[5][6][13] - 低精度量化(如FP8/FP4)通过减少存储计算开销、提升吞吐量,成为AI工厂提升算力效率的战略优势[2][8][11] FP8量化技术发展 - FP8为8位浮点数格式,相比FP32/FP16降低存储计算开销同时保持数值稳定性[2] - 微软、Meta、英特尔、AMD等企业均在研究FP8训练与推理,有望成为业界新标准[3] - DeepSeek主动采用UE8M0 FP8格式,推动硬件和工具链适配,加速国产软硬件生态建设[4] NVFP4技术突破 - NVFP4支持4比特预训练,在120亿参数模型上经10万亿token训练验证,精度与FP8相当[26][31] - 关键技术包括微块缩放(每16元素共享缩放因子)、E4M3高精度块编码、张量分布重塑及量化一致性保持[18][19][20][21] - Blackwell架构原生支持FP4,GB300相比Hopper实现GEMM运算7倍加速,提升矩阵计算效率[13][17] 低精度量化的行业影响 - AI工厂核心指标为token吞吐量,低精度格式通过提升算术运算效率释放算力潜能[8][9][10] - 4比特预训练可减少内存需求、优化通信效率,在相同硬件下处理更多token且保持精度[10][11] - 低精度训练推动高性能AI模型开发,支持更大规模模型训练和更快速实验迭代[6][15] 应用与生态合作 - NVFP4目前处于研究阶段,合作方包括AWS、Cohere、Google Cloud、Microsoft AI等领先组织[6] - 低精度量化与边缘计算结合(如Jetson Thor芯片),实现从训练到部署的高效能效闭环[7] - 行业争议点在于低精度虽提升单次训练效率,但可能无法缓解AI总体算力需求扩张带来的能源压力[6]
推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型
量子位· 2025-08-11 15:48
核心观点 - OpenAI在gpt-oss开源模型中采用MXFP4数据类型,显著降低推理成本75%,同时内存占用减少至BF16模型的1/4,生成token速度提升4倍[1][5] - MXFP4量化技术使1200亿参数模型可运行于80GB显存显卡,16GB显存显卡可支持200亿参数版本[2] - 该技术通过压缩权重存储(半字节/参数)和优化内存带宽,实现降本增效[7][12][14] 技术细节 MXFP4特性 - 采用4位微缩放浮点数(MXFP4),权重存储大小仅为FP32的1/8[12][15] - 通过32个高精度数值共享8位缩放因子,平衡数据压缩与精度[20][22] - 硬件兼容性强,无需原生支持FP4(如Nvidia H100)[26][27] 性能对比 - 1200亿参数模型总参数量116.83B,Checkpoint Size 60.8GiB;200亿参数版本总参数量20.91B,Checkpoint Size 12.8GiB[3] - Nvidia Blackwell芯片FP4运算性能达9 petaFLOPS,较BF16(2.2 petaFLOPS)提升显著[24] 行业应用 - 90%的gpt-oss模型权重采用MXFP4量化,直接降低运行成本[4] - 行业趋势显示FP8量化已无显著质量损失,DeepSeek等公司直接使用FP8训练[30][31] - 英伟达推出NVFP4作为竞品,缩放块大小更小(16 vs MXFP4的32),精度更高[33] 技术局限性 - MXFP4可能因缩放块粒度不足导致质量下降,需权衡精度与计算效率[32] - 低精度数据类型(如FP4)传统上被视为性价比妥协,但MXFP4通过优化实现可行性[29][34]