世界模型数据集Sekai - 上海人工智能实验室、北京理工大学、上海创智学院、东京大学等机构联合推出持续迭代的高质量视频数据集项目Sekai,旨在构建动态且真实的世界供交互探索 [2] - 数据集汇聚来自全球101个国家和地区、750多座城市的超过5000小时第一人称行走与无人机视角视频,配有精细化的多维度标签 [2] - 包含两个互补子集:面向真实世界的Sekai-Real(YouTube视频)和面向虚拟场景的Sekai-Game(游戏视频) [3] 数据集特点 - Sekai-Real从8623小时YouTube视频中筛选出6620小时,确保分辨率不低于1080P、帧率高于30FPS,并保留原生立体声 [3][5][6] - 通过多维度采样模块提取300小时高质量子集Sekai-Real-HQ,综合考虑画质、内容多样性、地点、天气等因素 [3][9] - Sekai-Game来源于虚幻引擎5游戏《Lushfoil Photography Sim》,录制60小时实况视频并获取精确标注信息,最终处理得到36小时数据 [3][5][9] 数据处理流程 - 预处理阶段包括镜头边界检测、剪辑提取与转码(统一为H.265 MP4格式,720p分辨率,30fps帧率),以及视频过滤去除低质量片段 [8] - 标注阶段利用GPT-4o解析位置信息,Qwen 2.5-VL生成平均176字的时序描述,改进的MegaSaM提取相机轨迹 [8] - 采样阶段开发综合质量与多样性的策略,优化训练数据成本 [9] 应用与成果 - 基于Sekai数据训练交互式视频世界探索模型Yume,支持通过键鼠操作控制生成视频 [2] - 最终数据具备精准的三级位置信息、四大内容分类维度、详细视频描述及相机轨迹标注 [10] - 目标推动世界建模与多模态智能发展,应用于视频生成、自主导航等领域 [10]
750城市+5000小时第一人称视频,上海AI Lab开源面向世界探索高质量视频数据集
量子位·2025-07-05 12:03