Workflow
ROCm
icon
搜索文档
FlashAttention-4震撼来袭,原生支持Blackwell GPU,英伟达的护城河更深了?
36氪· 2025-08-26 20:41
FlashAttention-4技术发布 - 在Hot Chips 2025会议上由TogetherAI首席科学家Tri Dao公布FlashAttention-4 [1] - 新版本针对英伟达Blackwell架构进行原生优化 此前需依赖Triton/cuDNN间接支持 [19] 性能表现 - 在Blackwell上比英伟达cuDNN库中的注意力核实现快达22% [2] - 执行A@B+C计算时 在归约维度K较小场景下比cuBLAS 13.0库更快 标准矩阵算法A@B时两者速度相当 [5] - 通过两个累积缓冲区重叠epilogue设计击败cuBLAS [9] 算法改进 - 采用新型在线softmax算法 跳过90%输出rescaling操作 [6] - 使用指数软件模拟(MUFU.EX2)提升softmax与张量核计算的吞吐量重叠 [6] - 基于CUTLASS CuTe Python DSL开发 ROCm HIP移植难度比CUDA C++高10倍 [6] 技术演进历程 - 初代FlashAttention(2022)通过tiling+softmax rescaling策略将内存复杂度从O(N²)降至O(N) [11][13] - BERT-large训练速度提升15% GPT-2(序列长度1K)速度提升3倍 Long-Range Arena(序列长度1K–4K)提升2.4倍 [13] - FlashAttention-2(2023)速度比初代提高2-4倍 A100 GPU达230 TFLOPs/s 为PyTorch标准实现9倍速度 [17][18] - FlashAttention-3(2024)适配Hopper架构 速度达FlashAttention-2的1.5-2.0倍 FP8精度下接近1.2 PFLOPS [19] - GitHub仓库累计获得19.1k星标 目前未发布技术报告 [23][24] 行业生态影响 - Tri Dao等开发者专注于英伟达GPU并开源核心代码 被视为CUDA生态核心优势 [9] - AMD需提供优惠支持或支付5000万美元才可能吸引开发者转向ROCm生态系统 [9] - 谷歌曾支付27亿美元获取Noam Shazeer技术 Meta为OpenAI工程师支付1亿美元 [9]
Lisa Su最新专访:谈GPU、DeepSeek和AI展望
半导体行业观察· 2025-08-14 09:28
公司业绩与战略 - AMD在苏姿丰领导下市值从20亿美元飙升至近3000亿美元 [5] - 数据中心收入从2022年60亿美元增长到2023年126亿美元 [15] - 采用小芯片技术并推出全球首款7纳米数据中心GPU [6] - 与OpenAI、Meta、谷歌、特斯拉等巨头达成合作 [6][16] 行业竞争格局 - AMD与英伟达在AI芯片市场直接竞争 [3][7] - 英伟达市值达4.4万亿美元远超AMD [7] - 特朗普政府对销往中国芯片征收15%关税 [3] - ROCm软件生态系统与英伟达CUDA存在差距 [19] 技术发展方向 - 人工智能从训练转向推理计算 [18] - 模块化芯片制造方法获得巨大回报 [6] - 医疗保健被视为AI关键应用领域 [22][31] - 预计未来三四年市场规模超5000亿美元 [16] 产业政策与布局 - 支持芯片制造回归美国 [11] - 台积电亚利桑那晶圆厂已运行最新服务器处理器 [12] - 半导体产业对国家安全和经济利益至关重要 [11] - 需要改变追求最低成本的心态 [12] 产品与研发 - 针对内存容量等推理计算关键因素优化 [18] - 拥有AI模型团队进行产品测试 [19] - 通过收购Nod.ai加强软件生态系统 [22] - 微软将在云服务中全面采用AMD芯片 [17]
OpenAI估值达5000亿美元;华为再起诉传音丨新鲜早科技
21世纪经济报道· 2025-08-07 09:49
巨头动向与估值 - OpenAI员工股票二次出售谈判显示公司估值达5000亿美元 较上一轮融资3000亿美元估值增长66.7% 计划出售价值数十亿美元股票[2] - 华为在德国欧洲统一专利法院起诉传音控股侵犯图像显示专利 这是华为第二次状告传音专利侵权[3] - 英伟达CEO黄仁勋8月1-5日减持22.5万股公司股票 套现3978万美元 成交价区间171.59-180.10美元/股 仍持有7345万股 今年6-7月累计减持超200万股[5] - 微软在华盛顿州启动新一轮约40人裁员 今年在该州裁员总数升至3160人 公司称裁员是业务管理常规部分 与人工智能发展战略相吻合[9] 人工智能技术发展 - xAI宣布Grok 2将于下周开源 Grok-2和Grok-2 mini已以Beta版本发布 支持中文问答 在聊天编码推理方面提升显著 并向Premium用户开放图像生成功能[4] - OpenAI宣布ChatGPT不再回应关于是否分手的个人困境提问 改为引导用户思考提问 承认技术难以识别妄想或情感依赖迹象[6] - AMD在南京设立中国首家ROCm实验室 将成为生态发展引力中心 推动AI生物医药智能制造等场景应用 计划持续投入本地化建设[8] - 360安全云发布安全管控企服三类智能体 安全智能体在威胁发现数量速度准确率提升 管控智能体自动化处置率报告效率提升 企服智能体覆盖人力财税法务营销场景[15] 半导体行业动态 - 三星决定将DDR4 1z DRAM生产延长至2026年12月 原计划今年内结束生产[10] - 台积电证实2纳米制程商业机密泄漏 约10人涉案 包括前员工和研发人员 泄露400多张制程整合技术照 已开除员工并采取法律行动[11] 企业财报表现 - Snap第二季度营收13.4亿美元 净亏损2.626亿美元 因全球ARPU不及预期股价暴跌15% 但日活用户和Snapchat+订阅用户增长 订阅服务收入同比增长64%[12] - 优步宣布200亿美元股票回购计划 第二季度营业收入127亿美元同比增长18% 总订单额468亿美元 预计第三季度订单额超华尔街预期 但股价盘前剧烈波动[13] 资本市场与融资 - AI销售营销自动化公司Clay完成1亿美元C轮融资 估值31亿美元 由CapitalG领投 老股东跟投 较三个月前15亿美元估值翻倍[14] 新产品发布 - 大疆首次发布扫地机器人DJI ROMO 三款机型售价4699-6799元 配备无人机同款环境感知和路径规划能力 使用双目鱼眼视觉传感器和三颗固态激光雷达[16] 行业政策标准 - 全国数据标准化技术委员会就全国一体化算力网2项技术文件公开征求意见 涉及智算中心算力池化技术和安全保护要求 至此9项技术文件全部发布 标准体系基本完善[7]
美国超微(AMD):MI308 造成短期业绩波动,看好中长期 AI 芯片进展
国金证券· 2025-08-06 19:40
业绩表现 - 报告研究的具体公司25Q2实现营收76 85亿美元 同比+32% [2] - GAAP会计准则下毛利率为40% 同比-9 pcts Non-GAAP毛利率为43% 同比-10pcts [2] - GAAP净利润8 72亿美元 同比+229% Non-GAAP净利润7 81亿美元 同比-31% [2] - 净利润下滑主要因MI308限售导致的库存减值损失 MI308出口许可正接受美国政府审核 [2] - 公司指引25Q3营收为87±3亿美元 Non-GAAP毛利率为54% 不考虑MI308销售 [2] 业务分析 - 数据中心业务25Q2营收32亿美元 同比+14% 主要驱动力来自数据中心CPU份额提升 [3] - AI芯片MI350系列已发布 预计下半年快速放量 2026年将发布MI400系列及整机柜方案 [3] - 第七代ROCm软件生态发布 训练和推理端性能提升3倍 预计未来AI收入可达年化百亿美元级别 [3] - PC CPU和游戏业务合计营收36亿美元 同比+69% 主要受新一代PC CPU与GPU放量驱动 [3] - 已与微软达成Xbox定制芯片项目合作协议 [3] 财务预测与估值 - 预计公司25~27年GAAP利润分别为26 71亿 43 49亿 52 06亿美元 [4] - 预计25~27年营业收入分别为341 97亿 462 67亿 534 38亿美元 对应增长率32 6% 35 3% 15 5% [9] - 预计25~27年归母净利润分别为26 71亿 43 49亿 52 06亿美元 对应增长率62 8% 62 8% 19 7% [9] - 25~27年每股收益预测为1 65 2 68 3 21美元 市盈率分别为59 82 36 75 30 70倍 [9] - 维持"买入"评级 [4] 行业前景 - 下游云厂商CAPEX持续投入 云业务高增速保障未来CAPEX能力 [4] - token数量爆发式增长将持续带动CAPEX需求 [4] - 新一代AI芯片产品竞争力提升 有望实现更多客户导入和份额边际增长 [4] - 26年AI收入有望加速增长 [4]
CFRA上调AMD评级,看多其开源AI软件进展及重返中国市场潜力
贝塔投资智库· 2025-06-25 11:59
评级调整与目标价 - 知名投资机构CFRA将AMD股票评级从"买入"上调至"强力买入",目标价从每股125美元大幅上调至165美元 [1] - 受此消息刺激,AMD股价当日涨幅接近6% [1] 竞争格局与技术突破 - AMD与英伟达的竞争格局将在2026年出现实质性改变,主要得益于新一代AI加速器MI400x的推出和整机柜级解决方案的布局 [1] - 完成对ZT Systems的收购将为AMD打开新的增长通道,预计直接推动GPU产品销售规模扩张 [1] 客户生态与技术壁垒 - AMD正加速拓展人工智能领域核心客户,包括已建立合作的甲骨文、OpenAI等科技巨头 [1] - 自主研发的开源AI软件框架ROCm持续迭代升级,构建更具竞争力的技术生态壁垒,软硬件协同发展战略增强市场话语权 [1] 市场趋势与行业周期 - GPU服务器市场将从今年第四季度开启强劲复苏周期,AMD作为重要参与者将充分享受行业红利 [2] - 自主AI算力需求的爆发式增长和中国市场潜在的业务重启机会,为AMD中长期发展增添想象空间 [2]
CFRA上调AMD(AMD.US)评级 看多其开源AI软件进展及重返中国市场潜力
智通财经网· 2025-06-25 08:01
评级上调与目标价调整 - 知名投资机构CFRA将AMD股票评级从"买入"上调至"强力买入" 目标价从125美元大幅上调至165美元 [1] - 受评级上调消息刺激 AMD股价当日涨幅接近6% [1] 技术竞争格局变化 - 预计2026年AMD与英伟达的竞争格局将出现实质性改变 主要源于新一代AI加速器MI400x的推出和整机柜级解决方案布局 [1] - 收购ZT Systems将直接推动AMD GPU产品销售规模扩张 [1] 客户生态与技术壁垒 - AMD加速拓展人工智能领域核心客户 包括已建立合作的甲骨文和OpenAI等科技巨头 [1] - 自主研发的开源AI软件框架ROCm持续迭代升级 构建更具竞争力的技术生态壁垒 [1] 市场趋势与增长动力 - GPU服务器市场预计从今年第四季度开启强劲复苏周期 AMD将充分受益 [2] - 自主AI算力需求爆发式增长和中国市场潜在业务重启为AMD中长期发展提供增长空间 [2]
AMD算力战略全面分析
2025-06-19 17:46
纪要涉及的行业和公司 - **行业**:人工智能加速器市场 - **公司**:AMD、NVIDIA、华为 纪要提到的核心观点和论据 AMD竞争策略 - **非对称战争策略**:因难以在绝对性能、深度垂直整合和软件生态系统上与NVIDIA对称正面交锋,AMD采取非对称策略,包括攻击成本而非仅追求性能,利用对手联盟裂痕,在软件领域采取游击战术,目标是成为市场上可行的“第二选择”,开辟可观且盈利的市场份额[1][2][3] - **CDNA 4产品组合多层次进攻策略**:MI400“Helios”机柜与UALOE战略使AMD具备整机柜级别交付能力;通过向Neocloud合作伙伴回租算力降低其部署风险;MI350X/MI355X系列攻击NVIDIA主流市场;ROCm 7提升推理性能并改善框架支持;MI500概念传递长期承诺信号[1][5][6] 产品对比 - **MI350X & MI355X**:目标是NVIDIA HGX B200占据的主流市场,核心客户为专注中小LLM推理的企业和超大规模数据中心。MI355X显存容量高于NVIDIA B200,3年TCO比HGX B200低约30%,在FP6算力和显存容量上有优势,但节点内互联带宽处于劣势[1][8] - **MI400系列**:目标市场是进行前沿模型训练和大规模推理的顶级超大规模客户,是对NVIDIA GB200/VR200系统的直接回应。在性能、内存和互联技术上实现均衡与超越,FP8算力预计比NVIDIA VR200高出20%,内存容量和带宽均高出50%,采用UALOE架构提供灵活性和成本优势[1][9] 互联技术竞争 - **AMD互联策略**:从节点内XGMI到机柜级UALOE体现务实与妥协,因合作伙伴UALink交换芯片推迟,被迫采用基于以太网的UALOE,带来架构影响和硬件资源浪费[1][27][28] - **NVIDIA互联护城河**:第五代NVLink技术提供强大护城河,推出NVLink Fusion反击UALink联盟,吸引潜在合作伙伴进入其生态系统[7][30][31] 软件生态系统 - **ROCm vs. CUDA**:CUDA是成熟生态系统,ROCm相对落后,存在成熟度与功能、性能与稳定性方面的差距,有“ROCm税”。但AMD正从兼容性、性能和社区等角度反击[2][37][42] - **开发者迁移决策**:构建量化迁移指数(QMI)模型辅助决策,当工作负载以推理为中心、能利用AMD硬件优势、项目全新、组织对成本敏感或信奉开源优先理念时,可考虑从CUDA迁移到ROCm[40][43][46] 华为与AMD战略对比 - **战略差异**:华为与AMD在硬件哲学、软件战略、互联技术、供应链、市场策略和地缘政治立场上存在根本性差异,华为追求自主可控,AMD追求开放市场竞争[48][49][51] - **华为可借鉴经验**:将客户“不满”武器化,更积极为客户“共担风险”,将开源作为“外交工具”,聚焦并放大自身“楔子”优势[52][53][55] 中国算力供应商决策 - **市场背景**:中国AI算力租赁市场复杂,H100租金高昂,H20训练性能受限,华为昇腾910C/D硬件性能提升但软件生态不成熟,AMD MI355X若进入市场将成“搅局者”[56] - **决策框架**:引入算⼒资本回报率(ROCC)模型构建算力资产组合,建议进行小规模MI355X GPU集群“试点”部署,实现风险对冲,捕获“CUDA不满者”市场,打造差异化高性能训练服务[57][60][65] 其他重要但可能被忽略的内容 - **AMD架构特点**:采用混合节点策略,计算芯片使用台积电N3P工艺,基础芯片使用N6工艺,实现性能与成本优化平衡。与上一代相比,MI350架构有显著演进,但在精细优化方面仍落后于NVIDIA[1][15] - **FP6优势**:AMD在FP6精度上有显著性能优势,源于不同架构设计,可吸引低精度量化研究和部署的开发者,为建立技术信誉和蚕食NVIDIA市场份额提供机会[1][23][25] - **互联技术竞争本质**:互联技术竞争演变成争夺未来AI基础设施生态系统主导权的代理人战争,UALink联盟对抗NVIDIA专有NVLink,NVIDIA NVLink Fusion反击,AMD UALOE方案削弱了UALink独特性[7][34][35]
CSDN 创始人蒋涛:“码盲”消失,新程序员崛起
36氪· 2025-06-13 17:56
AI行业变革 - ChatGPT在17个月内达到8亿用户,成为历史上增长最快的应用[1][5] - DeepSeek登顶全球100多个国家,推动AI平权化[1][5] - AI公司收入暴涨,Cursor成为最快突破5亿美金收入的SaaS公司[5] - 传统互联网流量全线下降,AI正在改变用户习惯和流量入口[1][5] 三座大山挑战 - 算力霸权:CUDA对中国禁运,华为推CANN、AMD推ROCm、Intel推oneAPI进行破局[6] - 模型霸权:OpenAI采取封闭模式,DeepSeek和阿里巴巴通过开源打破垄断[6] - 数据霸权:英文语料主导全球,需建立多元开放数据集(如欧洲LAION项目)[6] Local AI机遇 - 全球对Local AI需求强烈,各国不希望数据被单一模型控制[7] - 中国制造业优势明显,50元成本即可将硬件接入大模型[12] - 中国创业团队两年达2亿美金收入,通过AI解决iPhone录音问题[12] - 硬件制造与软件工程师红利结合,推动"义乌小商品"AI化[12] 开发者生态变革 - GitHub开发者数量达1.9亿,年增长20%[8] - AI Coding改变编程方式,传统"码农"工作将被AI替代[8] - "码盲"将消失,产品经理可独立开发App(如"小猫补光灯"案例)[9] - 超级程序员生产力将提升10倍以上[9] Agent技术发展 - Manus等Agent产品实现分钟级内容创作[10] - Agent Engineer成为稀缺人才,需具备提示词、软件工程和产品能力[10] - 企业AI化程度可通过每日Token消耗量衡量[10] 产业未来展望 - AI将重写硬件和软件,实现万物可编程[11][12] - 数字化向智能化转变,大模型赋予个人全球知识[12] - 未来十年将创造巨大新兴产业[13]
CSDN 创始人蒋涛:“码盲”消失,新程序员崛起
AI科技大本营· 2025-06-13 15:51
AI行业变革 - ChatGPT以17个月达到8亿用户成为史上增长最快的应用[7] - AI公司收入暴涨,Cursor成为最快突破5亿美金收入的SaaS公司[7] - DeepSeek登顶全球100多个国家,推动AI平权化[1][7] 三座技术霸权 - **算力霸权**:CUDA对中国禁运,华为推CANN、AMD推ROCm、Intel推oneAPI进行破局[8] - **模型霸权**:OpenAI封闭模式受质疑,DeepSeek和阿里巴巴开源打破垄断[9] - **数据霸权**:英文语料主导全球数据,需建立多元开放数据集(如欧洲LAION项目)[9] 开发者生态重构 - GitHub开发者数量达1.9亿,年增长20%[11] - AI Coding变革传统编程,手动代码工作将被AI替代[11] - "码盲"消失,产品经理可独立开发应用(如"小猫补光灯"案例)[12][13] - 超级程序员生产力提升10倍,Agent Engineer成稀缺人才[15] 中国AI机遇 - 硬件成本降低:50元BOM成本即可接入大模型能力(ESP32芯片案例)[17] - 制造业优势:3D打印技术结合AI,创业团队两年收入达2亿美金[17] - AI重写硬件与软件,推动"义乌小商品"智能化改造[17] 技术栈与全球化 - 从Global AI转向Local AI,满足各国数据自主需求[10] - 开源系统联合对抗技术霸权,构建本地化技术栈[8][9]
semianalysis-AMD 2.0-新的紧迫感 MI450X 有望击败英伟达 英伟达的新护城
2025-04-24 09:55
纪要涉及的行业和公司 行业为半导体行业,尤其是人工智能GPU领域;公司主要涉及AMD和NVIDIA,还提及了Google、Microsoft、OpenAI、Oracle等相关企业 纪要提到的核心观点和论据 AMD现状与进展 - **积极变化**:自2024年12月文章发布后,AMD有了紧迫感,在AI软件栈上进步显著,如2025年1月推出开发者关系功能、采用开发者优先策略、将MI300加入PyTorch CI/CD等,且在基准测试和性能声明的可重复性上超越NVIDIA [4][10][24][25][30] - **产品竞争力**:MI325X和MI355X市场表现不佳,MI325X推出时间晚,MI355X规模扩展性不如NVIDIA的GB200 NVL72,但在特定场景下,MI355X对小型和中型模型有一定竞争力;预计2026年下半年推出的MI450X IF64和MI450X IF128可能与NVIDIA的VR200 NVL144竞争 [7][169][171][172][173][200][228] - **开发者生态**:认识到开发者对CUDA成功的重要性,采取开发者优先策略,但开发者关系团队规模小,缺乏类似NVIDIA GTC的开发者大会 [26][36][37][40] - **软件问题**:ROCm软件存在诸多问题,如缺乏一流的Python支持、Python内核DSL不足、RCCL与NCCL差距大、软件基础设施层进展慢、缺乏推理功能支持等 [11][86][89][107][131][142] - **人才与资源**:AI软件工程师薪酬缺乏竞争力,难以吸引和留住人才;内部开发集群资源不足,限制创新和发展 [59][61][69][70] NVIDIA优势与进展 - **软件生态**:CUDA拥有庞大的开发者生态系统,新想法和突破通常先在CUDA上出现,问题发现和修复更快;在Python支持和内核DSL方面领先,不断推出新功能和库 [31][32][77][89] - **产品优势**:产品推出节奏和性能领先,如GB200 NVL72在规模扩展性上优于AMD产品;NCCL功能不断改进和增强,拉开与RCCL的差距 [7][110][114] - **开发者支持**:通过GTC开发者大会等方式为开发者提供学习和交流平台,开发者生态完善 [39] 对AMD的建议 - **人才与薪酬**:调整薪酬结构,提高AI软件工程师的RSU,吸引和留住人才 [67] - **研发投入**:增加研发预算,为团队提供更多GPU资源,转向长期、多年的集群采购策略 [9][75] - **开发者生态**:招聘20多名开发者关系工程师,举办“ROCm开发者大会”,捐赠GPU给学术实验室 [40][45] - **软件改进**:投资Python接口,加强RCCL团队资源,解决软件基础设施层问题,支持分解预填充推理和NVMe KV缓存分层等功能 [164] - **产品宣传**:公布模型FLOPS利用率(MFU)和TFLOP/s/GPU [164] 对NVIDIA的建议 - **API扩展**:继续快速扩展API表面积,保持领先地位 [167] - **开发者支持**:探索将消费级GPU纳入PyTorch CI/CD的策略,提高用户体验 [168] - **功能集成**:将用户缓冲区注册功能集成到整个PyTorch栈,与Meta PyTorch团队合作集成快速RMSNorm内核等 [170] - **开源与规范**:遵循开源精神,避免过度夸大FLOP/s规格 [170] 其他重要但可能被忽略的内容 - **MI355X微架构**:采用Hopper SM90风格微架构,但picoJoules per bit和picoJoules per FLOP高于Blackwell的SM100 uarch,且浪费过多硅面积在FP64核心上 [175][178] - **MI400系列灵活IO**:采用144条IO通道支持多种标准,提供了极大的灵活性,但增加了硅工程的难度和风险 [183][184][187] - **MI430X UL4**:是HPC聚焦的CDNA - NEXT芯片,因UALink开关限制,只能在4个GPU之间进行点对点连接 [188][189] - **MI450X Infinity Fabric over Ethernet**:预计2026年下半年推出,有IFoE64和IFoE128两种SKU,在理论上具有竞争力,但IFoE128面临电缆管理和信号完整性挑战 [200][214][223][226] - **产品定价与TCO**:AMD的MI300X和MI325X服务器级成本和集群前期总成本比NVIDIA的H100低20 - 30%,运营成本相似,总体拥有成本低于NVIDIA [230][232][236]