110万美元悬赏!AMD发起全球战书:谁能打破DeepSeek与Kimi的推理速度极限?

赛事概述 - 由AMD与GPU MODE联合发起一项名为“2026线上黑客松:AMD E2E Model Speedrun”的全球性AI性能优化竞赛,旨在通过极客对决定义下一代AI推理的工业标准[2][3][4] 赛事目标与意义 - 竞赛聚焦于在极高并发下突破内存墙限制,并通过优雅的代码实现最高效的算子重构,强调在AI战场中速度与吞吐量的决定性作用[2] - 参赛者的极限优化成果将有机会直接合入主流开源框架,从而影响行业标准[4] 奖金设置 - 赛事总奖金池高达110万美元[10] - 进入决赛的Top 10队伍每支保底获得1万美元奖金[5][11] - 赛道一(DeepSeek-R1-0528 FP4 + MTP)的冠军奖金为35万美元[5][11] - 赛道二(Kimi K2.5 1T FP4)的冠军奖金为65万美元[5][11] - 两大赛道独立,团队可双线作战以包揽奖金[11] 赛制结构 - 比赛采用“底层算子突围 + 端到端决赛大考”的双阶段赛制[13] - 预选赛阶段:参赛者需对三大核心GPU算子进行极限优化,包括MXFP4 MoE(最高1500分)、MLA Decode(最高1250分)和MXFP4 GEMM(最高1000分)[14][15] - 每个内核问题的得分计算公式为:最大分值 × [1 -(排名分值/20)],排名分值从0到19[15][16] - 总分为三项内核得分之和,仅排名前20的算子可获得积分,总分排名前10的战队或个人晋级决赛[17][18] - 总决赛阶段:Top 10选手将获得AMD提供的单节点8卡云端Instinct™ GPU集群,在指定并发度下优化两大明星模型的端到端性能[19] 决赛赛道与评判标准 - 赛道1:DeepSeek-R1-0528 FP4 + MTP - 需在4、32、128三种并发度下同时满足吞吐量、交互性和端到端延迟的硬性指标,并保证模型精度(GSM8K ≥ 0.93)[19] - 具体性能门槛包括:在4并发时吞吐量≥1500 token/s/GPU,交互性≥165 token/s/user,E2E延迟≤22秒;在32并发时吞吐量≥3900 token/s/GPU,交互性≥50 token/s/user,延迟<18秒;在128并发时吞吐量≥6000 token/s/GPU,交互性≥48 token/s/user,延迟<5秒[20] - 赛道2:Kimi K2.5 1T FP4 - 同样需在4、32、128三种并发度下同时满足多项性能指标,并保证模型精度(GSM8K ≥ 0.93)[20] - 具体性能门槛包括:在4并发时吞吐量≥1350 token/s/GPU,交互性≥150 token/s/user,延迟≤65秒;在32并发时吞吐量≥4500 token/s/GPU,交互性≥65 token/s/user,延迟≤14秒;在128并发时吞吐量≥5300 token/s/GPU,交互性≥50 token/s/user,延迟≤24.5秒[20] - 决赛评分基于每GPU的Token Throughput(最高600分)和Interactivity(最高400分),三个并发级别总满分3000分[21] 参赛要求与成果归属 - 赛事面向AI底层优化工程师、CUDA/Triton极客、系统架构师及开源社区贡献者,支持个人或最多3人组队参赛[26] - 所有具备获奖资格的团队,其提交的代码必须在赛后2-4周内,在AMD工程师指导下向AMD官方仓库发起Pull Request并完成合并,以确保优化成果能造福AI社区[22][23] 关键时间节点 - 报名及预选赛截止时间为4月7日14:59(中国标准时间),届时将产生Top 10决赛队伍[25][26] - 决赛排位战时间为4月8日00:00至5月16日14:59[25] - 全球颁奖典礼于5月19日举行[25] 参赛资源与社区 - 参赛者需先加入AMD AI Developer Program以获取官方资源[26] - 预选赛参考内核及工具库可通过GitHub获取[27][28] - 官方鼓励参赛者加入GPU MODE Discord社区及微信比赛专属群,以获取技术支持并与全球开发者交流[5][28]

110万美元悬赏!AMD发起全球战书:谁能打破DeepSeek与Kimi的推理速度极限? - Reportify