搜索文档
宇宙世界基金会物理AI模型平台
英伟达· 2025-01-09 15:46
核心观点 - 报告提出了Cosmos World Foundation Model Platform,旨在帮助开发者构建定制化的物理AI系统世界模型,通过预训练和后训练的世界基础模型(WFM)来适应不同的下游应用需求 [1][3] - 该平台通过开源和开放权重的模型,提供宽松的许可途径,帮助物理AI建设者解决社会面临的关键问题 [1] - 物理AI的发展相对缓慢,主要原因是训练数据的扩展挑战,尤其是需要包含交错的观察和行动序列 [2] 世界基础模型(WFM)平台 - WFM平台通过预训练和后训练的范式构建,预训练阶段使用大规模视频数据集,后训练阶段则通过微调适应特定物理AI环境 [3] - 平台提供了视频筛选流程、预训练的世界基础模型、预训练后生成的例子以及视频分词器,帮助开发者构建高效的物理AI系统 [1][3] - WFM平台的核心组件包括视频策展人、视频分词器、预训练的世界基础模型、后训练样本以及边界防护 [18] 数据整理与处理 - 平台使用视频数据整理管道,从200万小时的视频中提取了约1亿个2到60秒的片段,并通过视觉语言模型(VLM)生成视频字幕 [4] - 数据处理步骤包括分割、过滤、标注、去重和分片,确保数据的高质量和多样性 [25][27] - 平台使用了约2000万小时的原始视频数据,分辨率为720p至4k,最终生成了约10^8个用于预训练的视频剪辑和10^7个用于微调的视频剪辑 [29] 预训练与后训练模型 - 预训练的WFM通过大规模视频数据集进行训练,使其成为通才模型,后训练则通过微调适应特定物理AI设置 [3][9] - 平台提供了基于扩散模型和自回归模型的WFM,分别用于生成连续和离散的视频表示 [9][20] - 后训练的WFM可以应用于自动驾驶、机器人操作和摄像头控制等场景,展示了其在物理AI系统中的广泛应用 [7][11] 分词器与模型架构 - Cosmos Tokenizer提供了连续和离散的分词器,支持图像和视频的联合训练,并在多种压缩率下表现出色 [56][60] - 基于扩散的WFM通过去噪任务生成视频,而基于自回归的WFM则通过下一个标记预测生成视频 [95][100] - 平台使用了最先进的变压器架构,确保模型的可扩展性和高效性 [9][20] 应用场景与未来展望 - WFM可以用于政策评估、政策生成、规划或模型预测控制以及合成数据生成,帮助物理AI系统在未见过的环境中进行测试和优化 [13][16] - 尽管平台在多个领域展示了潜力,但仍需进一步研究以推动世界基础模型的进步 [12][17]