110万美元悬赏！AMD发起全球战书：谁能打破DeepSeek与Kimi的推理速度极限？

赛事概述 - 由AMD与GPU MODE联合发起一项名为“2026线上黑客松：AMD E2E Model Speedrun”的全球性AI性能优化竞赛，旨在通过极客对决定义下一代AI推理的工业标准[2][3][4] 赛事目标与意义 - 竞赛聚焦于在极高并发下突破内存墙限制，并通过优雅的代码实现最高效的算子重构，强调在AI战场中速度与吞吐量的决定性作用[2] - 参赛者的极限优化成果将有机会直接合入主流开源框架，从而影响行业标准[4] 奖金设置 - 赛事总奖金池高达110万美元[10] - 进入决赛的Top 10队伍每支保底获得1万美元奖金[5][11] - 赛道一（DeepSeek-R1-0528 FP4 + MTP）的冠军奖金为35万美元[5][11] - 赛道二（Kimi K2.5 1T FP4）的冠军奖金为65万美元[5][11] - 两大赛道独立，团队可双线作战以包揽奖金[11] 赛制结构 - 比赛采用“底层算子突围 + 端到端决赛大考”的双阶段赛制[13] - 预选赛阶段：参赛者需对三大核心GPU算子进行极限优化，包括MXFP4 MoE（最高1500分）、MLA Decode（最高1250分）和MXFP4 GEMM（最高1000分）[14][15] - 每个内核问题的得分计算公式为：最大分值 × [1 -（排名分值/20）]，排名分值从0到19[15][16] - 总分为三项内核得分之和，仅排名前20的算子可获得积分，总分排名前10的战队或个人晋级决赛[17][18] - 总决赛阶段：Top 10选手将获得AMD提供的单节点8卡云端Instinct™ GPU集群，在指定并发度下优化两大明星模型的端到端性能[19] 决赛赛道与评判标准 - 赛道1：DeepSeek-R1-0528 FP4 + MTP - 需在4、32、128三种并发度下同时满足吞吐量、交互性和端到端延迟的硬性指标，并保证模型精度（GSM8K ≥ 0.93）[19] - 具体性能门槛包括：在4并发时吞吐量≥1500 token/s/GPU，交互性≥165 token/s/user，E2E延迟≤22秒；在32并发时吞吐量≥3900 token/s/GPU，交互性≥50 token/s/user，延迟<18秒；在128并发时吞吐量≥6000 token/s/GPU，交互性≥48 token/s/user，延迟<5秒[20] - 赛道2：Kimi K2.5 1T FP4 - 同样需在4、32、128三种并发度下同时满足多项性能指标，并保证模型精度（GSM8K ≥ 0.93）[20] - 具体性能门槛包括：在4并发时吞吐量≥1350 token/s/GPU，交互性≥150 token/s/user，延迟≤65秒；在32并发时吞吐量≥4500 token/s/GPU，交互性≥65 token/s/user，延迟≤14秒；在128并发时吞吐量≥5300 token/s/GPU，交互性≥50 token/s/user，延迟≤24.5秒[20] - 决赛评分基于每GPU的Token Throughput（最高600分）和Interactivity（最高400分），三个并发级别总满分3000分[21] 参赛要求与成果归属 - 赛事面向AI底层优化工程师、CUDA/Triton极客、系统架构师及开源社区贡献者，支持个人或最多3人组队参赛[26] - 所有具备获奖资格的团队，其提交的代码必须在赛后2-4周内，在AMD工程师指导下向AMD官方仓库发起Pull Request并完成合并，以确保优化成果能造福AI社区[22][23] 关键时间节点 - 报名及预选赛截止时间为4月7日14:59（中国标准时间），届时将产生Top 10决赛队伍[25][26] - 决赛排位战时间为4月8日00:00至5月16日14:59[25] - 全球颁奖典礼于5月19日举行[25] 参赛资源与社区 - 参赛者需先加入AMD AI Developer Program以获取官方资源[26] - 预选赛参考内核及工具库可通过GitHub获取[27][28] - 官方鼓励参赛者加入GPU MODE Discord社区及微信比赛专属群，以获取技术支持并与全球开发者交流[5][28]