Workflow
NVIDIA Cosmos™ world foundation models
icon
搜索文档
NVIDIA Announces Major Release of Cosmos World Foundation Models and Physical AI Data Tools
Globenewswire· 2025-03-19 03:13
文章核心观点 - NVIDIA发布新的Cosmos世界基础模型,为物理AI开发带来突破,还推出两个新蓝图,助力机器人和自动驾驶车辆的合成数据生成,多家行业领先企业成为早期采用者 [1][2][3] 新模型及蓝图发布 - 公司宣布发布新的NVIDIA Cosmos世界基础模型,为物理AI开发引入开放且可完全定制的推理模型,开发者可对世界生成进行前所未有的控制 [1] - 公司推出由NVIDIA Omniverse和Cosmos平台驱动的两个新蓝图,为开发者提供用于训练后机器人和自动驾驶车辆的大规模、可控合成数据生成引擎 [2] 行业应用情况 - 1X、Agility Robotics、Figure AI、Foretellix、Skild AI和Uber等行业领导者率先采用Cosmos,以更快、更大规模地为物理AI生成更丰富的训练数据 [2] 不同功能模型介绍 Cosmos Transfer for Synthetic Data Generation - Cosmos Transfer世界基础模型可摄入结构化视频输入,生成可控的逼真视频输出,简化感知AI训练,将Omniverse中创建的3D模拟或真实数据转换为逼真视频,用于大规模、可控合成数据生成 [3][4] - Agility Robotics将早期采用Cosmos Transfer和Omniverse进行大规模合成数据生成,以训练其机器人模型 [4] - NVIDIA Omniverse蓝图用于自动驾驶车辆模拟,利用Cosmos Transfer扩大基于物理的传感器数据的变化,Foretellix和Parallel Domain使用该蓝图增强驾驶数据集 [5] - NVIDIA GR00T蓝图用于合成操作运动生成,结合Omniverse和Cosmos Transfer大规模生成多样化数据集,减少数据收集和增强时间 [6] Cosmos Predict for Intelligent World Generation - Cosmos Predict世界基础模型可从多模态输入生成虚拟世界状态,新模型支持多帧生成,可根据起始和结束输入图像预测中间动作或运动轨迹,可使用公司公开的物理AI数据集进行定制 [7] - 借助NVIDIA Grace Blackwell NVL72系统的推理计算能力,开发者可实现实时世界生成 [8] - 1X、Skild AI、Nexar和Oxa等公司分别使用Cosmos Predict和Cosmos Transfer来推进其机器人和自动驾驶系统的开发 [8] Multimodal Reasoning for Physical AI - Cosmos Reason是具有时空感知的开放、可完全定制的世界基础模型,使用链式思维推理理解视频数据并预测交互结果,可用自然语言表达 [9] - 开发者可使用Cosmos Reason改进物理AI数据注释和整理,增强现有世界基础模型或创建新的视觉语言动作模型,还可对其进行训练以构建高级规划器 [10] 数据处理与训练 - 开发者可根据下游任务,使用原生PyTorch脚本或NVIDIA NeMo框架在NVIDIA DGX Cloud上对Cosmos世界基础模型进行训练 [11] - Cosmos开发者可使用NVIDIA NeMo Curator在DGX Cloud上进行加速数据处理和整理,Linker Vision、Milestone Systems、Virtual Incision、Uber和Waabi等公司使用其进行数据整理以推进相关项目 [12] 责任AI与内容透明度 - 公司在所有Cosmos世界基础模型中实施开放护栏,并与Google DeepMind合作集成SynthID,对AI生成的输出进行水印处理和识别 [13] 可用性 - Cosmos世界基础模型可在NVIDIA API目录中预览,已列入Google Cloud的Vertex AI模型库,Cosmos Predict和Cosmos Transfer在Hugging Face和GitHub上公开可用,Cosmos Reason处于早期访问阶段 [14]