告别“炼丹玄学”：上海AI实验室推出首个大模型数据竞技场OpenDataArena

开放数据竞技场OpenDataArena平台发布 - 上海人工智能实验室OpenDataLab团队推出开放数据竞技场OpenDataArena 旨在解决AI时代数据价值量化难题将数据质量评估从"玄学"变为"科学" [1][4][5] - 平台通过公平公开透明的评测机制构建训评一体化开源工具和多维度评分体系以模型效果作为数据价值衡量标准 [6][7][10][11] - 覆盖4+领域 20+基准测试 20+数据评分维度处理100+数据集超20M+数据样本完成600+次模型训练和10K+次模型评估 [12] 平台核心功能与运作机制 - 采用Llama3.1和Qwen2.5的7B版本作为基准模型使用LLaMA-Factory训练框架和OpenCompass评估框架确保测试公平性和可复现性 [17][18][34] - 通过多领域基准测试集（通用数学代码长链推理）全面评估单领域和混合领域数据质量 [19] - 提供数据评测榜单例如AM-Thinking-v1-Distilled-math数据集在数学领域得分74.5 较基准模型提升58.5个百分点 [20][22] 多维度数据评价体系 - 从20+维度对数据集整体和单条数据进行精细化打分包括基于模型评估 LLM评委和启发式方法 [23][24][25] - 开源部分评分数据避免重复API调用降低科研用户打分成本 [27][28] - 评分工具持续完善已实现大部分评估维度开源并提供使用教程 [37] 开源工具与社区参与 - 完整开源训练评测工具和多维度数据评价工具所有细节可通过OpenDataArena-Tool获取 [30][31] - 工具与主流研究工作和开源工具对齐保证结果公平可比 [35] - 鼓励社区共同参与数据价值验证通过官方wiki文档了解工具使用方法 [37][38] 未来发展规划 - 计划扩展验证范围至多模态数据类型深化医疗金融科学等专业领域应用场景 [41] - 每月更新数据竞技场榜单保持数据排行榜时效性 [42] - 需科研社区力量共同参与数据价值验证工作 [42]