NVIDIA Blackwell B200 GPU
搜索文档
刚刚,英伟达革了自己的命:智能体自主进化7天,干掉所有算子工程师、GPU专家
36氪· 2026-03-26 12:14
研究背景与核心创新 - 英伟达提出了一种名为智能体式变异算子(Agentic Variation Operators, AVO)的新型进化变异算子,它用自主编码智能体取代了经典进化搜索中固定的变异、交叉和人工设计的启发式方法 [2] - 该研究旨在解决传统基于大语言模型(LLM)的进化搜索的局限,即LLM被限制在预设流程中仅作为候选解生成器,无法主动查阅资料、测试、解读反馈或修正方案,这对于需要深度迭代的顶级硬件优化任务尤为致命 [5][10] - AVO将深度智能体提升为变异算子本身,使其成为一个自我驱动的智能体循环,能够自主决定查阅内容、修改对象及评估时机,实现长周期内的持续改进,从而将AI从被动的“代码生成器”转变为掌握全局的“进化操盘手” [6][7][10][12] 技术验证与性能表现 - 研究将AVO应用于NVIDIA Blackwell B200 GPU上的多头注意力(MHA)内核优化,在无需人工干预、连续7天的自主演化中,智能体探索了超过500个优化方向,演化出40个内核版本 [9][16] - 最终生成的MHA内核在BF16精度下达到了最高1668 TFLOPS的吞吐量,在测试配置中性能超越英伟达官方cuDNN库高达3.5%,超越目前最前沿的开源基准FlashAttention-4高达10.5% [9][14][19] - 研究证明了优化技术的强大泛化能力:智能体仅需30分钟的额外自主适配,即可将演化版MHA内核迁移至分组查询注意力(GQA),其性能相比cuDNN提升高达7.0%,相比FlashAttention-4提升高达9.3% [9][18][23] 优化深度与硬件级推理 - 分析表明,智能体发现的优化涵盖了内核设计的多个层面,包括寄存器分配、指令流水线调度和负载分布,反映了真正的硬件级推理,而非表层的代码变换 [9][14][24] - 具体优化案例包括:通过消除条件分支和替换轻量级内存屏障,使非因果注意力吞吐量一次性提升8.1%;重新组织执行流水线以实现张量核心计算重叠,减少硬件空闲等待时间;通过分析性能数据,对Blackwell的2048个寄存器预算进行重新分配,进一步榨取2.1%的性能提升 [25] - 该研究证明AI智能体已具备处理多硬件子系统(如同步、内存排序、流水线调度和寄存器分配)联合推理的能力,为未来的自动化软件系统优化指明了方向 [24] 行业意义与未来展望 - 研究人员将这种方法称为“盲编程”,即开发完全自动化、无需人工干预的系统,并断言“盲编程是软件工程的未来”,因为人类认知能力是瓶颈 [3] - AVO作为一种不局限于特定领域的进化变异算子,不仅可用于AI芯片和深度学习底层生态的开发,未来更有望在所有对算力有极致苛求的科学和工程领域中大展拳脚 [24] - 这项研究被评价为“超人类智能在软件领域的真正首次展露”,其表现可能会对现有的内核/领域特定语言(DSL)开发产生深远影响 [1][2]
AlphaTON Capital Adds Deployment of 504 NVIDIA Blackwell B200 GPU Computers for AI Market Infrastructure
Globenewswire· 2026-02-17 23:35
公司近期战略部署与财务影响 - 公司签署并完成一项价值3000万美元的AI计算基础设施租赁协议 为公司在加拿大的部署能力新增504颗NVIDIA B200芯片[1] - 此次新增的GPU部署预计将带来1.7倍的回报倍数和40%的内部收益率[1] - 此次部署预计将从2026年3月开始 每月为公司带来至少120万美元的即时收入流 收入来源于向AI开发者、企业和Telegram生态系统按小时出租B200芯片[9] - 按每颗B200芯片每小时4美元、每月运行30天、每天24小时估算 504颗芯片每月可产生约145万美元收入[9] - 根据当前估算 公司的B200和B300芯片将在2026年4月前全面上线 总计1080颗芯片的月收入预计将达到311万美元[9] - 公司于2026年1月签署了一项价值4600万美元的协议 收购一个包含576颗NVIDIA B300 GPU的半集群 计划于2026年3月交付[10] - 公司于2025年11月向Telegram的Cocoon AI网络部署了首批B200试点集群 并在去年12月即产生收入[10] 公司业务里程碑与增长数据 - 本周部署的504颗NVIDIA B200 GPU标志着公司在不到三个月内的第三次重大部署[10] - 自2025年11月启动以来 公司Cocoon AI网络部署的推理请求量实现了340%的月环比增长 高正常运行时间反映了用户愿意为真正的保密计算网络付费[10] - 公司是领先的公开上市科技公司 致力于通过AI基础设施和Telegram应用扩展Telegram超级应用 其可触达市场为10亿月活跃用户[1][13] - 公司通过其运营 为公开市场投资者提供了接触Telegram生态系统及其十亿用户平台的机构级敞口[14] 行业趋势与市场需求 - 近期市场动态已将AI基础设施从一个投机性领域转变为系统性的经济必需品 大型科技公司在2025年AI基础设施上支出超过4000亿美元 预计2026年累计AI资本支出将超过6000亿美元[3] - 由于隐私、主权和数据保护限制 许多AI工作负载无法在大型科技公司的基础设施上运行[4] - 对主权性、保护隐私的AI基础设施的需求这一平行趋势已经出现 欧盟的监管发展、关键市场严格的数据本地化要求以及企业数据安全意识增强 正在创造对大型科技基础设施替代方案的巨大需求[5] - 到2030年 所有AI基础设施领域对AI计算技术的需求估计将达到7.2万亿美元[9] - 北美在民主治理、强大的隐私保护、丰富的清洁能源和支持创新且不牺牲用户数据权利的稳定监管框架方面具有独特优势 有潜力成为该领域的全球领导者[5] 公司战略定位与运营优势 - 此次在加拿大的504颗NVIDIA B200芯片半集群部署 代表了公司通过运营租赁结构向资本高效增长的战略转变 同时将加拿大定位为无需许可的保密计算和以隐私为中心的AI基础设施的全球领导者[11] - 这种合作伙伴关系使公司能够快速扩展其保密计算能力 同时保持资产负债表的灵活性[11] - 504颗B200 GPU将托管在加拿大一个高能效、可持续的数据中心 加拿大为AI基础设施提供了卓越优势:丰富的清洁水电、有竞争力的能源成本、支持数字创新的稳定监管环境以及天然适合数据中心冷却的气候 有助于降低运营成本并保持环境可持续性[12] - 公司通过结合软件产品、中间件数据与AI训练资产 以及为Telegram生态系统部署保密AI的AI基础设施硬件集群 在Telegram生态系统中提供全面的超大规模服务商战略[13]
IREN Purchases 4.2k NVIDIA Blackwell GPUs & Secures Financing - AI Cloud Expanded to 8.5k GPUs
Globenewswire· 2025-08-25 19:11
核心观点 - 公司宣布新增采购4200台NVIDIA Blackwell B200 GPU 使其GPU总量增至约8500台 同时为前期GPU采购获得1.02亿美元融资[1][3][4] 设备采购与配置 - 新增4200台NVIDIA Blackwell B200 GPU 采购金额约1.93亿美元(含配套设备)[3] - GPU总量达8500台 包括800台H100 1100台H200 5400台B200及1200台B300[4][6] - 新设备将部署于乔治王子城数据中心 该站点总电力容量为50MW 可支持阶段性扩容至约20000台Blackwell GPU[3][4][7] 融资安排 - 获得1.02亿美元融资 用于前期Blackwell B200/B300 GPU采购[1][2] - 融资采用36个月全额租赁模式 适用高个位数利率[2] - 新采购GPU的融资谈判仍在进行中 首期款项由现有现金支付[3] 运营规划 - 乔治王子城数据中心采用风冷方案 每GPU功耗1.93kW(含辅助设备) 电源使用效率PUE为1.1[7] - 总挖矿算力维持50 EH/s水平 通过高效利用其他站点闲置数据中心容量实现[3] - 公司定位为垂直整合数据中心企业 专注于比特币挖矿和AI云服务 总 secured电网电力达2910MW[10][11]
SuperX Unveils the All-New SuperX XN9160-B200 AI Server, Powered by NVIDIA Blackwell GPU -- Accelerating AI Innovation by 30x as Compared to H100 Series with Supercomputer-Class Performance
Prnewswire· 2025-07-30 18:30
产品发布 - Super X AI Technology Limited推出最新旗舰产品SuperX XN9160-B200 AI服务器,搭载NVIDIA Blackwell架构GPU(B200),旨在满足AI训练、机器学习(ML)和高性能计算(HPC)工作负载对可扩展高性能计算日益增长的需求 [1] - 该服务器专为加速大规模分布式AI训练和推理工作负载而设计,性能可与传统超级计算机媲美,在紧凑外形中提供企业级能力 [2] - 产品发布标志着公司在AI基础设施路线图上的重要里程碑,将为全球AI创新提供强大的GPU实例和计算能力 [3] 技术规格 - XN9160-B200配备8个NVIDIA Blackwell B200 GPU、第五代NVLink技术、1440GB高带宽内存(HBM3E)和第6代Intel® Xeon®处理器,在10U机箱内释放极致AI计算性能 [4] - 采用第五代NVLink技术,提供高达1.8TB/s的GPU间带宽,大规模AI模型训练速度提升高达3倍 [5] - 在GPT-MoE 1.8T模型上,FP8精度下每卡吞吐量达58 tokens/秒,较上一代H100平台的3.5 tokens/秒提升高达15倍 [5] - 配备2颗Intel® Xeon® 6710E处理器(64核/2.4GHz/205W)、32条96GB DDR5 5600内存、960GB SSD系统盘和3.84TB NVMe U.2存储盘 [9] 目标市场 - 产品面向全球计算需求高的企业和研究机构,特别是大型科技公司、学术研究机构、金融保险、制药医疗以及政府和气象机构 [12] - 具体应用场景包括基础模型训练部署、科学模拟建模、风险实时分析、药物筛选和气候建模等 [12] 公司背景 - Super X AI Technology Limited是AI基础设施解决方案提供商,通过新加坡全资子公司提供专有硬件、先进软件和端到端服务 [10] - 核心产品包括高性能AI服务器、高压直流解决方案、高密度液冷解决方案以及AI云和AI代理 [10] - 公司总部位于新加坡,服务全球机构客户,包括企业、研究机构和云计算部署 [10]