Llama 4遭竞技场背刺！实锤用特供版刷榜，2000+对战记录公开

大模型竞技场事件核心观点 - 大模型竞技场官方团队公开质疑Meta提供的Llama-4-Maverick-03-26-Experimental为特供版未明确标注经过人类偏好优化的定制模型属性 [1][2][7] - 官方公开2000余组模型对战数据包含用户提示词、模型回复及用户偏好数据以增强透明度 [1][6] - 竞技场正在更新排行榜政策强化公平性和可复现性评估承诺 [3][7] Llama-4模型表现分析 - 代码生成任务表现：Llama-4-Maverick生成可运行的"Blob Hunter"网页游戏计分准确而对比模型command-a-03-2025存在明显bug [9][13][14][15] - 学术标题生成任务：相比claude-3-5-sonnet的简洁回复 Llama-4-Maverick提供更详细建议包含情绪价值和选择建议 [20][22][24] - 中文文本解析：展现超长输出特点对微小说进行深度拆解超出基础分析需求 [27][28] 竞技场排名争议 - Llama-4-Maverick以1417分位列竞技场第二超越DeepSeek-V3成为开源模型榜首较Llama-3-405B提升149分 [31][32][33] - 实际表现与排名严重不符第三方基准测试中多处于末尾经典编程测试出现基础错误 [35][37] - Meta GenAI负责人解释表现差异源于部署问题但用户质疑该现象在其他模型中未出现 [38][39][40] 行业评价体系讨论 - 竞技场评价方法受质疑人类偏好被认为不适用于评估高级大模型能力投票基准被指过时 [44] - 用户指出模型亲和力（非官方认定的表情符号）才是获得高票关键因素 [45] - 行业建议更新评价体系包括修改ELO算法或启用强制风格转换等方案 [46]