大模型竞技场事件核心观点 - 大模型竞技场官方团队公开质疑Meta提供的Llama-4-Maverick-03-26-Experimental为特供版 未明确标注经过人类偏好优化的定制模型属性 [1][2][7] - 官方公开2000余组模型对战数据 包含用户提示词、模型回复及用户偏好数据以增强透明度 [1][6] - 竞技场正在更新排行榜政策 强化公平性和可复现性评估承诺 [3][7] Llama-4模型表现分析 - 代码生成任务表现:Llama-4-Maverick生成可运行的"Blob Hunter"网页游戏 计分准确 而对比模型command-a-03-2025存在明显bug [9][13][14][15] - 学术标题生成任务:相比claude-3-5-sonnet的简洁回复 Llama-4-Maverick提供更详细建议 包含情绪价值和选择建议 [20][22][24] - 中文文本解析:展现超长输出特点 对微小说进行深度拆解 超出基础分析需求 [27][28] 竞技场排名争议 - Llama-4-Maverick以1417分位列竞技场第二 超越DeepSeek-V3成为开源模型榜首 较Llama-3-405B提升149分 [31][32][33] - 实际表现与排名严重不符 第三方基准测试中多处于末尾 经典编程测试出现基础错误 [35][37] - Meta GenAI负责人解释表现差异源于部署问题 但用户质疑该现象在其他模型中未出现 [38][39][40] 行业评价体系讨论 - 竞技场评价方法受质疑 人类偏好被认为不适用于评估高级大模型能力 投票基准被指过时 [44] - 用户指出模型亲和力(非官方认定的表情符号)才是获得高票关键因素 [45] - 行业建议更新评价体系 包括修改ELO算法或启用强制风格转换等方案 [46]
Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开