FP8
搜索文档
华尔街见闻早餐FM-Radio | 2025年8月28日
华尔街见闻· 2025-08-28 07:29
市场表现 - 美股标普500指数收涨0.24%至6481.40点创新高,道指涨0.32%,纳指涨0.21% [7] - 欧洲STOXX 600指数微涨0.10%至554.76点 [7] - A股沪指大跌1.76%至3800.35点,深证成指跌1.43%,创业板指跌0.69% [7] - 寒武纪市值超越贵州茅台成为A股新股王 [4] - 中概股指数下跌2.58%,美团ADR美股盘中跌幅超14% [2] 英伟达财报表现 - 营收及利润超预期但下季指引不够亮眼,盘后股价一度跌5% [4][10] - 数据中心收入连续两季逊色,Blackwell产品营收环比增17%但H20销售收入减少40亿美元 [12] - 上季度未在华销售H20芯片,释放1.8亿美元库存 [12] - 新增600亿美元股票回购授权 [4][12] - 黄仁勋称中国市场今年可能带来500亿美元商机 [4][12] 美团业绩下滑 - Q2经调整净利润同比骤降89%至14.9亿元,远低于市场预期的98.5亿元 [4][10][12] - 营销开支大增51.8%,经营利润暴跌98%至2.3亿元 [4][12] - 核心本地商业业务经营利润率从25.1%骤降至5.7% [12] - 公司预计Q3核心本地商业业务将出现大幅亏损 [4][10] 美联储政策动向 - 特朗普试图通过解雇理事库克掌控美联储,可能影响货币政策独立性 [11][13] - 若获得四张鸽派投票,特朗普可能推动激进宽松政策及单方面调整利率 [13] - 纽约联储主席威廉姆斯强调美联储独立性极其宝贵 [24] - 5年期美债拍卖出现需求疲软信号,得标利率3.724% [24] 企业动态与行业趋势 - Snowflake财报强劲并上调全年指引,盘后股价涨13% [6][16] - 蜜雪冰城上半年收入同比增长39.3%,净利润增44.1%,全球门店数达5.3万家 [5][15] - 紫金矿业上半年净利润286亿元同比增55%,市值超800亿美元 [19] - 高盛上调中际旭创目标价至392元,新易盛至398元,认为估值合理 [16] - 美国企业股票回购规模达1万亿美元,创历史最快纪录 [24] 能源与大宗商品 - WTI原油期货收涨1.42%至64.15美元/桶,布伦特原油涨1.23%至68.05美元/桶 [7] - 高盛预测2026年底布伦特原油或跌至50美元出头,因全球库存可能飙升近8亿桶 [25] - COMEX黄金期货涨0.51%至3450.60美元/盎司 [7] 科技与人工智能进展 - 英伟达推出FP4精度预训练技术,较FP8更快更便宜 [4][10] - 生成式AI冲击美国年轻人就业,22-25岁程序员就业人数下降近20% [27] - 马斯克星舰第十次试飞成功,实现历史性Starlink卫星模拟部署 [27] - OpenAI重组或将推迟至明年,与微软谈判存在关键分歧 [26] 债券与汇率市场 - 10年期美债收益率跌2.52基点至4.2362%,2年期收益率跌5.60基点至3.6229% [7] - 美元指数较日高下挫0.60% [2] - 30年期法国国债收益率创14年新高 [2] 地区与产业政策 - 欧盟拟削减美国关税以满足特朗普要求,汽车进口关税或从27.5%降至15% [14] - 特朗普政府暗示将关注军工和造船业,洛克希德·马丁被点名 [14] - 中国7月规模以上工业企业利润同比降幅收窄至1.5%,高技术制造业利润增18.9% [17] - 人形机器人产业在中国快速发展,大摩称成本控制及规模化生产进展显著 [18]
连续三季盈利、股价逼近茅台,寒武纪行情因何高亢?
南方都市报· 2025-08-27 12:17
财务表现 - 2025年上半年营收28.81亿元,同比增加4347.82% [1] - 归属于母公司股东的净利润10.38亿元,扣非后归母净利润9.13亿元,均同比扭亏为盈 [1] - 第二季度营收17.69亿元,环比增加59.19%;归母净利润6.83亿元,环比增长92.03%;扣非后归母净利润6.37亿元,环比增长130.68% [4] - 连续三个季度实现盈利,扣非后归母净利润连续两个季度保持正值 [4] - 经营活动产生的现金流从第一季度净流出14亿元转正为9.11亿元,主要因销售回款增加 [5] 业务与产品 - 云端产品线营收28.70亿元,占比高达99.62%,包括云端智能芯片及板卡、智能整机 [4] - AI芯片已迭代至思元590,在大模型训练任务中表现接近英伟达A100的80% [5] - 持续拓展人工智能算力市场,深化与大模型、互联网等领域头部企业技术合作 [4] - 产品在运营商、金融、互联网等多个重点行业规模化部署并通过客户严苛环境验证 [4] 战略与融资 - 近40亿元定向增发方案获上交所审核通过,资金将主要用于面向大模型的芯片平台项目和软件平台项目 [5] - 芯片平台项目包括覆盖不同类型大模型任务场景的系列化芯片产品、先进封装技术平台等 [5] - 软件平台项目用于提升公司智能芯片的易用性和适应性 [5] - 聚焦主业发展,以技术创新提升芯片产品竞争力,优化能效表现,强化算法与硬件协同研发能力 [6] 市场与竞争环境 - 客户集中度较高,2024年前五大客户销售金额合计占营业收入比例94.63%,其中第一大客户占比79.15% [6] - 国产芯片替代持续推进,部分省市提出智算中心算力国产化率指标,如上海市要求2025年新建智算中心国产算力芯片使用占比超过50% [7] - 面临来自英伟达等巨头和国内AI芯片厂商的竞争,英伟达正在开发基于Blackwell架构的新款中国特供版AI芯片 [7] 技术动态与行业影响 - DeepSeek发布模型新版本DeepSeek-V3.1,使用UE8M0 FP8参数精度,针对下一代国产芯片设计 [8][10] - UE8M0 FP8是一种低精度格式,可节省存储和带宽,加快计算速度,关键用于大模型训练 [11][12] - UE8M0作为缩放因子,增大FP8精度覆盖的数值动态范围,减轻国产芯片硬件支撑FP8精度的难度 [13] - 包括沐曦、燧原科技、摩尔线程等芯片厂商均已宣称旗下芯片支持FP8精度 [14] - 国产模型为适应国产算力调整资源端消耗,国产算力不断支持国产模型发展,二者相向而行 [13]
DeepSeek掷出FP8骰子
第一财经资讯· 2025-08-26 14:45
芯片与AI算力指数表现 - 芯片指数(884160.WI)近一个月涨19.5%,AI算力指数(8841678.WI)近一个月涨22.47% [2] - 指数走高反映AI算力需求剧增与国产替代加速趋势 [2] FP8低精度计算技术发展 - FP8为8位浮点数格式,内存占用仅为FP16的0.5倍,传输效率提升2倍,硬件算力提升2倍 [8] - 英伟达2022年首次将FP8写入产品路线图,2023年OCP发布MXFP8规范解决训练稳定性问题 [5][6] - DeepSeek 2024年通过V3模型跑通MXFP8,推动低精度计算在AI训练中的应用 [7] 低精度计算的行业驱动因素 - 大模型推理对低精度计算需求极大,可缓解硬件压力与HBM瓶颈问题 [10] - 低精度量化有效应对计算量大、存储不足和数据传输慢三大问题 [9] - 混合精度训练框架(如FP32/FP16/FP8多精度架构)显著提升训练效率 [9] 国产算力产业进展 - 中国AI加速卡国产份额从2023年不足15%提升至2025年上半年40%以上,预计年底过半 [14] - 国产算力产业链完成"融资-研发-场景落地"正向循环,独立于海外生态 [14] - 工信部计划到2026年建立算力互联互通标准体系,2028年实现全国公共算力互联 [9] 低精度计算的技术边界与应用 - 精度低于FP4可能导致数据失真,FP4可能是当前技术极限 [13] - FP8在矩阵乘法中表现优异,但累加等操作仍需高精度支持 [13] - 低精度主要应用于推理场景,训练和微调仍需FP16/FP32保障精度 [13] 行业生态与标准化进展 - 软件栈平台(如CUDA、PyTorch)逐步原生支持FP8算子 [5] - InfiniBand网络需支持FP8格式高效传输以实现跨节点训练优化 [13] - 低精度计算趋势从训练端向推理端渗透,推动芯片厂商调整技术路线 [9]
DeepSeek掷出FP8骰子
第一财经· 2025-08-26 14:34
芯片与AI算力指数表现 - 芯片指数(884160 WI)午盘涨002% 近一个月涨195% [3] - AI算力指数(8841678 WI)午盘涨145% 近一个月涨2247% [3] DeepSeek-V31技术突破 - DeepSeek发布V31版本 采用UE8M0 FP8 Scale参数精度 针对下一代国产芯片设计 [3] - FP8为8位浮点数格式 遵循IEEE 754规范 相比FP16内存占用减半至05倍 传输效率与硬件算力提升至2倍 [10] - 低精度量化可同时应对计算量大、储存不足和数据传输慢问题 [12] FP8技术发展历程 - 英伟达2022年9月在GTC大会首次将FP8写入产品路线图 H100 GPU原生支持FP8 [8] - 2023年OCP发布《MX规范》第一版 通过块缩放将FP8包装为可落地的MXFP8 [8] - 2024年12月DeepSeek通过V3模型跑通MXFP8 吸引行业关注 [9] - 行业从FP16向FP8演进 因万卡集群与推理爆发导致成本、功耗、显存成为核心问题 [9] 国产芯片市占率与政策支持 - 2025年第二季度国产芯片市占率提升至387% [12] - 工信部《算力互联互通行动计划》提出2026年建立算力互联互通标准体系 2028年实现全国公共算力标准化互联 [12] - 中国AI加速卡国产份额从2023年不足15%升至2025年上半年超40% 预计年底过半 [17] 低精度计算的优势与局限 - FP8在矩阵乘法中表现优异 但累加或特定函数计算仍需高精度支持 [15] - 低精度浮点技术缓解硬件需求压力与HBM瓶颈 减少算力需求、内存容量及带宽要求 降低芯片功耗 [13] - 精度低于FP4时数据可能失真 FP4可能是技术极限 训练与微调仍需FP16/FP32高精度 [15] - 精度替换只能部分进行 敏感环节需保留高精度计算 [16] 行业应用与未来趋势 - FP8推动算力厂商调整技术路线 多精度混合架构可同时运行FP32/FP16/FP8任务 训练效率显著提升 [12] - 低精度计算提升大语言模型效率 改善多模态领域如AI视频生成与世界模型的响应速度 [17] - 国产算力产业链完成融资-研发-场景落地正向循环 走出独立于海外生态的可持续路径 [17]
DeepSeek掷出FP8骰子:一场关于效率、成本与自主可控的算力博弈
第一财经· 2025-08-26 13:47
国产算力产业链独立发展路径 - 国产算力产业链正稳步走出一条独立于海外生态的可持续路径 [1][13] 市场表现与指数变化 - 芯片指数(884160.WI)探底回升,午盘涨0.02%,近一个月涨19.5% [2] - AI算力指数(8841678.WI)热度延续,午盘涨1.45%,近一个月涨22.47% [2] DeepSeek技术升级与行业影响 - DeepSeek发布DeepSeek-V3.1,使用UE8M0 FP8 Scale参数精度,针对下一代国产芯片设计 [2] - DeepSeek通过V3模型跑通MXFP8,在复杂AI训练任务中高效发挥作用 [7] - DeepSeek采用DualPipe并行算法,将跨节点MoE训练的通信开销降至接近零 [12] FP8技术发展历程 - FP8是一种8位浮点数格式,遵循IEEE 754规范 [5] - 英伟达在2022年9月GTC大会上首次将FP8写入产品路线图,H100 GPU原生支持FP8 [6] - 2023年OCP发布《MX规范》第一版本,通过"块缩放"将FP8包装为可大规模落地的MXFP8 [6] - 2024年行业出现万卡集群、推理爆发,FP8因省显存、省电费、速度快等价值被更多厂商关注 [7] 低精度计算的优势与挑战 - 低精度量化能有效应对计算量大、储存不足和数据传输慢问题 [9] - FP8在矩阵乘法等操作中表现优异,但在累加或特定函数计算中仍需高精度支持 [12] - 低精度并非无限追求,当精度低于FP4时数据可能失真,FP4可能是技术极限 [12] - 精度替换只能部分进行,精度敏感环节仍需保留高精度计算 [13] 国产芯片市占率与政策支持 - 2025年第二季度国产芯片市占率提升至38.7% [9] - 工信部印发《算力互联互通行动计划》,提出到2026年建立完备的算力互联互通标准体系 [9] - 中国AI加速卡国产份额由2023年不足15%提升至2025年上半年40%以上,预计年底将过半 [13] 行业趋势与厂商布局 - AI投资主线从"有没有GPU"的"囤卡"策略倾斜到"省不省算力"的效率路线 [7] - 多精度混合架构可同时运行FP32、FP16与FP8任务,训练效率较传统方案显著提升 [10] - 低精度浮点技术缓解硬件需求压力与HBM瓶颈问题,减少芯片功耗 [10] - 低精度计算催生更大、能力更强的模型,支持更长token序列并提供更快响应 [13]
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
智通财经网· 2025-08-24 15:48
公司动态 - DeepSeek宣布新一代模型DeepSeek-V3.1采用UE8M0 FP8 Scale参数精度 该精度标准针对下一代国产芯片设计 [1] - 消息引发资本市场强烈反应 寒武纪等芯片类上市企业股价集体拉升 [1] - 在2025算力大会上 FP8精度标准被讨论 但业内人士情绪较资本市场更为审慎 [1] 技术解析 - FP8将数据宽度压缩至8位 相比FP32的4字节传输量 FP8仅需1字节 算力效率翻倍 同时降低网络带宽通信量和存储要求 [2] - 在相同功耗下 AI芯片可训练更大模型或缩短训练时间 [2] - 低精度训练推理易因数值范围太小导致计算出错 不同计算对精度要求不同 矩阵乘法对精度不敏感可用FP8 累加或某些函数需较高精度 [3] - 业内通常采用混合精度训练 根据计算类型动态选择不同精度 兼顾效率与准确 [3] 行业影响 - DeepSeek-V3.1使用UE8M0 FP8 Scale参数精度 被视为国产AI芯片即将迈入新阶段的信号 [4] - FP8代表算力优化正确方向 大模型训练推理不只是堆砌硬件 但并非灵丹妙药 需关注实际落地效果 [4] - 大模型对精度容忍度越来越高 从FP32到FP16再到FP8是行业逐步验证路径 DeepSeek验证FP8在大规模模型可行性 [4] - 精度标准变化需上下游厂商联动优化 国产算力生态需同步升级 包括芯片、框架、算力平台到应用层闭环适配 [4] - 摩尔线程已提前布局FP8研究 作为技术储备并在生态调整中占据主动 [4] 发展挑战 - 大模型训练推理核心瓶颈包括能耗、稳定性和集群利用 需解决效率与容错问题 确保集群可靠性 [5] - 国内万卡规模集群已有部署 但需向大智算集群演进 简单堆卡不能完全满足需求 提高单卡效率与集群调度优化同样关键 [5]
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
财联社· 2025-08-24 12:34
文章核心观点 - DeepSeek-V3.1采用UE8M0 FP8 Scale参数精度 引发资本市场对国产AI芯片企业的关注 寒武纪等公司股价大幅上涨[1][4] - FP8精度标准被视为国产算力生态升级的关键方向 但产业界对其实际落地效果持审慎态度[1][4] - FP8技术通过降低数据宽度至8位提升算力效率并减少通信开销 但需通过混合精度训练平衡效率与准确性[2][3] FP8技术特性与优势 - FP8将数据宽度压缩至8位 相比FP32(32位浮点数)和FP16(16位浮点数)进一步减少存储和通信开销[2] - FP8使算力效率翻倍 传输FP8数值仅需1字节(原FP32需4字节) 单位时间内传输信息量增加且存储要求降低[2] - 在相同功耗下 AI芯片可训练更大模型或缩短训练时间[2] FP8技术挑战与局限性 - FP8低精度训练易因数值范围太小导致计算出错 需根据计算类型动态选择精度[3] - 矩阵乘法等操作对精度不敏感可用FP8 但累加或某些函数需较高精度 需采用混合精度训练兼顾效率与准确[3] 国产算力生态发展 - DeepSeek验证FP8在大规模模型上的可行性 为国产算力厂商提供发展机会[4] - 精度标准变化需芯片、框架、算力平台到应用层闭环适配 国产算力生态需同步升级[5] - 大模型训练核心瓶颈包括能耗、稳定性和集群利用 需提高单卡效率与集群调度优化而非简单堆砌硬件[5] 行业趋势与方向 - 大模型对精度容忍度逐步提高 从FP32到FP16再到FP8是行业验证过的技术路径[4] - FP8代表算力优化正确方向 未来可能在FP8标准乃至更高精度上进行研究或训练[4]
安孚科技(603031.SH):象帝先即将推出的伏羲架构B0芯片是为AIPC设计的异构芯片,支持FP8运算
格隆汇· 2025-08-22 15:53
公司技术进展 - 安孚科技在投资者互动平台中解释FP8是一种8位浮点数表示 相比传统FP16和FP32显著减少存储并提高计算吞吐 [1] - FP8在大模型训练中使模型权重和激活值内存占用直接减半 计算速度较FP16可提升2-3倍 [1] - 公司旗下象帝先即将推出伏羲架构B0芯片 该芯片为AIPC设计的异构芯片并支持FP8运算 [1]
DeepSeek一句话让国产芯片集体暴涨!背后的UE8M0 FP8到底是个啥
量子位· 2025-08-22 13:51
文章核心观点 - DeepSeek V3.1发布采用UE8M0 FP8参数精度 引发市场对国产芯片技术升级和生态协同的高度关注 带动相关企业股价显著上涨 [1][3][4] - UE8M0 FP8技术通过块级缩放和动态范围优化 显著降低带宽需求并提升计算效率 成为适配下一代国产芯片的关键创新 [10][11][19][20] - 国产AI芯片厂商如寒武纪、海光、沐曦等已布局FP8支持 软硬协同生态构建有望减少对国外算力依赖 提升行业竞争力 [23][24][33][34] 技术架构分析 - UE8M0 FP8由Open Compute Project定义 采用8位微缩块格式 通过分块缩放因子扩展动态范围数十倍 [8][10][11] - UE8M0格式无符号位和尾数位 全部分配8bit至指数位 处理器复原数据仅需移动指数位 无需浮点乘法或舍入逻辑 [14][19] - 相比传统FP32缩放 UE8M0使32个FP8数据仅追加8bit缩放因子 节省75%流量 显著优化带宽和功耗 [24] 国产芯片厂商动态 - 寒武纪早盘股价大涨近14% 总市值超4940亿元 跃居科创板首位 其MLU370-S4及思元590/690系列均支持FP8计算 [4][29] - 海光深算三号DCU、沐曦曦云C600、中昊芯英"刹那"TPU及摩尔线程MTT S5000均已支持FP8精度计算 [23][32] - 华为昇腾路线图显示2025Q4将支持原生FP8 预计2026年推出的新品可能成为"下一代芯片" [30] 产业生态影响 - 半导体ETF半日大涨5.89% 科创50指数涨3%创近三年半新高 芯片产业链集体走强 [4][31] - DeepSeek与15家厂商联合验证UE8M0格式 包括中国电信、昆仑芯等8家通过大模型适配 构建统一软硬协同生态 [23][27][34] - 技术升级提升国产芯片"性价比" 同等硬件可运行更大模型 实质性减少对英伟达、AMD等国外算力依赖 [33][34]
摩尔线程:原生支持FP8
第一财经· 2025-08-22 11:41
技术发展 - DeepSeek-V3.1采用UE8M0 FP8 Scale参数精度 专为下一代国产芯片设计 [1] - 摩尔线程已原生支持FP8并兼容DeepSeek相关功能 [1] 市场反应 - 资本市场芯片股出现大幅上涨 [1]