AMD 旗舰算力
搜索文档
超760万元奖金悬赏,谁能徒手重构 DeepSeek 与 Kimi 的性能底层?
AI科技大本营· 2026-03-27 12:12
行业技术背景与挑战 - 大模型工程化存在“不可能三角”,即极致的推理延迟、极高的吞吐量和极大的模型规模难以同时实现[1] - 2025年DeepSeek-V3技术报告展示了新一代超大规模模型推理范式,通过MLA架构将KV Cache压缩93%,并利用MTP技术提升访存效率,实现了万亿参数模型在大规模并发下的“高吞吐、低延迟”突破[1] - 到2026年,仅依靠FP8精度和现有基础架构已难以满足爆发式的即时响应需求,大规模真实并发下每一毫秒的延迟缩减都直接关联数以亿计的算力成本与集群效能[1] 2026 AMD E2E Model Speedrun全球挑战赛概况 - AMD联手GPU MODE,豪掷110万美元总奖金发起全球竞速挑战赛,旨在寻找能深度优化底层逻辑、充分榨取AMD旗舰算力潜能的顶级开发者[2][3] - 大赛采用“预选赛+端到端决赛大考”双阶段赛制[8] - 预选赛前10名优胜者将各获得1万美金并晋级决赛[8] - 决赛晋级选手将共同瓜分100万美元现金大奖[11] 预选赛规则与任务 - 预选赛包含三大核心GPU内核极限性能调优任务,总分3750分[8] - 任务一:MXFP4 MoE,最高分值1500分[10] - 任务二:MLA Decode,最高分值1250分[10] - 任务三:MXFP4 GEMM,最高分值1000分[10] - 排名规则基于测试用例的绝对运行时间几何平均值,作品性能必须超越官方基线且排在前20名方可计分[10] - 单项得分计算公式:最大分值 × [1 - (排名分值/20)],排名对应分值0至19[10] - 总分最高前十名需经主办方独立复现结果后确定决赛席位,若遇平局以提交时间最早的内核为准[10] 决赛大考详情 - 决赛分为两条赛道:DeepSeek-R1-0528 (FP4+MTP) 与 Kimi K2.5 1T (FP4),参赛者可同时参与双线作战[12] - 赛道一:DeepSeek-R1-0528 (FP4+MTP) - 精度要求:GSM8K > 0.93,必须同时使用AMD ATOM或SGLang框架达标[13] - 性能硬门槛: - 128并发:单卡吞吐量 > 48 t/s,总吞吐量 > 6000 t/s,延迟 ≤ 22s[13] - 32并发:单卡吞吐量 > 50 t/s,总吞吐量 > 3900 t/s,延迟 ≤ 18s[13] - 4并发:单卡吞吐量 > 165 t/s,总吞吐量 > 1500 t/s,延迟 ≤ 5s[13] - 赛道二:Kimi K2.5 1T (FP4),终极大奖65万美金[13] - 精度要求:GSM8K > 0.9325,必须同时使用AMD ATOM或VLLM框架达标[13] - 性能硬门槛: - 128并发:单卡吞吐量 > 35 t/s,总吞吐量 > 5300 t/s,延迟 ≤ 24.5s[13] - 32并发:单卡吞吐量 > 65 t/s,总吞吐量 > 4500 t/s,延迟 ≤ 14.0s[13] - 4并发:单卡吞吐量 > 150 t/s,总吞吐量 > 1350 t/s,延迟 ≤ 6.0s[13] - 决赛评估在Input 8K / Output 1K标准测试负载下进行,综合考量每GPU总Token吞吐量、交互性及端到端延迟[19] - 算力支持最大TP/EP = 8的8卡节点配置,开发者可自由调优[19] - 每个并发等级根据吞吐量(权重60%)与交互性(权重40%)排名赋分,三大并发等级得分之和为决赛总分[19] 大赛时间表 - 预选赛:北京时间3月7日08:00至4月7日14:59[16] - 报名通道即将在约12天后关闭,是通往110万美元奖金池的唯一入场券[16] - 总决赛冲刺:北京时间4月8日00:00至5月16日14:59[16] - 全球颁奖典礼:5月19日,代码将正式封榜合入开源主分支[17]