Workflow
谷歌推出开源框架,要给AI大模型的跑分“立规矩”
36氪·2025-05-29 07:34

AI大模型评测现状 - AI大模型评测目前处于"百家争鸣"状态,包括清华大学C-Eval、上海交通大学CMMLU、伯克利Chatbot Arena等学术机构榜单,以及红杉中国xbench等民间测试工具 [3] - 当前评测存在刷榜问题,模型通过针对性训练提高特定榜单成绩,但泛化能力未真正提升,如GSM8k和MATH测试中模型正确率可达80% [13] - Meta的Llama 4通过提供特殊版本成为大模型竞技场排名第一的开源模型,显示当前评测体系存在漏洞 [8] 谷歌LMEval框架 - 谷歌推出开源框架LMEval,旨在为大语言模型和多模态模型提供标准化评测工具,简化评测流程 [4] - LMEval支持跨平台测试(Azure/AWS/HuggingFace等),覆盖文本/图像/代码多领域,并能识别模型规避策略 [6] - 框架引入Giskard安全评分机制,测试数据本地加密存储,确保安全性 [6] - LMEval并非直接榜单,而是标准化评测流程,解决多平台API/数据格式不统一问题 [16][17] 行业竞争格局 - 大模型竞技场排名显示,Google Gemini 2.9 Pro以1439分领先,Meta Llama 4以1417分紧随其后,OpenAI GPT-4以1418分位列第三 [14] - 成本对比显示,Gemini 2.0 Flash每输入输出价格为$0.17,低于Llama 4 Maverick的0.190.19-0.49和GPT-40的$4.38 [11] - 性能指标上,Llama 4在LiveCodeBench(49.4vs36.0)、MMLU Pro(82.2vs79.1)等测试中领先Gemini [10] 行业挑战 - 当前评测体系存在"基准作弊"问题,微软CEO纳德拉直言AGI里程碑宣称只是无意义的刷榜行为 [13] - 科学/长效/真实构成"不可能三角",类似PC/手机行业针对评测软件优化的情况在AI领域重现 [16] - 去中心化解决方案导致开发者需应对多套测试标准,大幅增加时间成本 [16]