750城市+5000小时第一人称视频，上海AI Lab开源面向世界探索高质量视频数据集

世界模型数据集Sekai - 上海人工智能实验室、北京理工大学、上海创智学院、东京大学等机构联合推出持续迭代的高质量视频数据集项目Sekai，旨在构建动态且真实的世界供交互探索 [2] - 数据集汇聚来自全球101个国家和地区、750多座城市的超过5000小时第一人称行走与无人机视角视频，配有精细化的多维度标签 [2] - 包含两个互补子集：面向真实世界的Sekai-Real（YouTube视频）和面向虚拟场景的Sekai-Game（游戏视频） [3] 数据集特点 - Sekai-Real从8623小时YouTube视频中筛选出6620小时，确保分辨率不低于1080P、帧率高于30FPS，并保留原生立体声 [3][5][6] - 通过多维度采样模块提取300小时高质量子集Sekai-Real-HQ，综合考虑画质、内容多样性、地点、天气等因素 [3][9] - Sekai-Game来源于虚幻引擎5游戏《Lushfoil Photography Sim》，录制60小时实况视频并获取精确标注信息，最终处理得到36小时数据 [3][5][9] 数据处理流程 - 预处理阶段包括镜头边界检测、剪辑提取与转码（统一为H.265 MP4格式，720p分辨率，30fps帧率），以及视频过滤去除低质量片段 [8] - 标注阶段利用GPT-4o解析位置信息，Qwen 2.5-VL生成平均176字的时序描述，改进的MegaSaM提取相机轨迹 [8] - 采样阶段开发综合质量与多样性的策略，优化训练数据成本 [9] 应用与成果 - 基于Sekai数据训练交互式视频世界探索模型Yume，支持通过键鼠操作控制生成视频 [2] - 最终数据具备精准的三级位置信息、四大内容分类维度、详细视频描述及相机轨迹标注 [10] - 目标推动世界建模与多模态智能发展，应用于视频生成、自主导航等领域 [10]