Workflow
告别“炼丹玄学”:上海AI实验室推出首个大模型数据竞技场OpenDataArena
量子位·2025-08-24 12:38

开放数据竞技场OpenDataArena平台发布 - 上海人工智能实验室OpenDataLab团队推出开放数据竞技场OpenDataArena 旨在解决AI时代数据价值量化难题 将数据质量评估从"玄学"变为"科学" [1][4][5] - 平台通过公平公开透明的评测机制 构建训评一体化开源工具和多维度评分体系 以模型效果作为数据价值衡量标准 [6][7][10][11] - 覆盖4+领域 20+基准测试 20+数据评分维度 处理100+数据集 超20M+数据样本 完成600+次模型训练和10K+次模型评估 [12] 平台核心功能与运作机制 - 采用Llama3.1和Qwen2.5的7B版本作为基准模型 使用LLaMA-Factory训练框架和OpenCompass评估框架 确保测试公平性和可复现性 [17][18][34] - 通过多领域基准测试集(通用 数学 代码 长链推理)全面评估单领域和混合领域数据质量 [19] - 提供数据评测榜单 例如AM-Thinking-v1-Distilled-math数据集在数学领域得分74.5 较基准模型提升58.5个百分点 [20][22] 多维度数据评价体系 - 从20+维度对数据集整体和单条数据进行精细化打分 包括基于模型评估 LLM评委和启发式方法 [23][24][25] - 开源部分评分数据 避免重复API调用 降低科研用户打分成本 [27][28] - 评分工具持续完善 已实现大部分评估维度开源并提供使用教程 [37] 开源工具与社区参与 - 完整开源训练评测工具和多维度数据评价工具 所有细节可通过OpenDataArena-Tool获取 [30][31] - 工具与主流研究工作和开源工具对齐 保证结果公平可比 [35] - 鼓励社区共同参与数据价值验证 通过官方wiki文档了解工具使用方法 [37][38] 未来发展规划 - 计划扩展验证范围至多模态数据类型 深化医疗金融科学等专业领域应用场景 [41] - 每月更新数据竞技场榜单 保持数据排行榜时效性 [42] - 需科研社区力量共同参与数据价值验证工作 [42]