OmniNWM
搜索文档
东方理工金鑫:如何找到自动驾驶与机器人统一的「空间语言」丨GAIR 2025
雷峰网· 2025-12-14 14:27
文章核心观点 - 文章介绍了宁波东方理工大学金鑫教授团队在空间智能与世界模型领域的研究进展,其核心思路是采用“混合”路径构建世界模型,即结合明确的物理规则知识与数据驱动方法,并率先应用于工业制造等产业场景以实现技术验证与落地 [3][4][5] 空间智能(世界模型)的起源与概念 - 空间智能概念在SLAM技术时期已被讨论,2024年由斯坦福大学李飞飞教授拓展至与物理世界的交互、感知和理解 [8] - 世界模型技术近期取得显著进步,例如李飞飞团队发布的Marble 3D世界模型和谷歌DeepMind发布的Genie 3,后者在写实性、一致性及物理正确性上达到更高水平 [9] - 世界模型有望成为继数据增强、数据合成之后,为人工智能训练提供高效路径的新选择 [9] 空间智能的技术框架 - 团队将空间智能或世界模型划分为三个部分:空间感知(基础3D建模与物理定律嵌入)、空间交互(支持智能体与环境及多智能体间互动)、空间的理解泛化与生成(基于充分理解衍生生成能力) [10][12][13][14] - 整体工作细分为两个方向:空间构建(搭建仿真环境)与智能体训练(在环境中训练AI),两者可形成不断优化迭代的闭环 [15][18] 核心研究成果:自动驾驶场景生成 - **UniScene**:团队提出的专注于驾驶场景生成的工作,已被CVPR接收,后续有V2等版本 [20] - **生成动机**:由于合规、隐私及车队规模限制,真实数据难以覆盖足够多的“corner case”危险场景,需通过生成式方法合成逼真有价值的场景数据 [22] - **技术路径**:采用以Occupancy(占据栅格)为中心的生成方案,因其蕴含丰富语义与必要几何信息,是连接场景理解与建模的有效“桥梁” [27][32] - **生成流程**:以简单的鸟瞰图布局为输入,首先生成语义Occupancy,再以此为中心分别衍生生成激光雷达点云和多视角视频,是一个两阶段的解耦过程 [34] - **进展与产业合作**:UniScene V2版本在NuPlan数据集上扩展了数据量,新增深度图和语义分割模态,并能根据车辆传感器位置生成对应视角数据 [37][40];该版本在GitHub上线不到一周获得数百个star(后超过2000个) [41];正与理想汽车合作,测试生成器对带有镜头畸变数据的泛化能力,以低成本支持其自动驾驶算法迭代 [41] 核心研究成果:规划与机器人场景生成 - **OmniNWM**:团队引入闭环的“规划-生成”串联机制,将规划的轨迹作为条件输入,预测执行该轨迹后未来场景的变化,可称为“万能的驾驶导航世界模型” [42][44] - **模型能力**:需同时预测全景RGB视频、语义分割、深度图、3D结构及未来规划轨迹,重点在于状态、动作及闭环奖励三个维度的扩展 [45][50] - **技术迁移**:将相同方法论迁移至机器人领域,应用于具身智能场景进行数据合成,能以Occupancy为桥梁生成机器人视频,处理软体、绳体等物体的数据合成,并与主流仿真器兼容实现批量并行生成 [45] 核心研究成果:机器人数据与训练模型 - **InterVLA数据集**:为补充机器人第一人称视角数据缺失,团队构建了包含约3.9千个序列的新基准数据集,包含第一人称视角视频、第三人称视角视频及动作捕捉数据 [46][49][57] - **DreamVLA模型**:针对“抓放”等任务,提出将大语言模型中的“思维链”思想引入视觉-语言-动作模型,让模型在输出最终动作前,先输出“世界嵌入”或“世界知识”等中间产物,形成多模态推理链条 [63][71][73] - **模型效果**:相比于Open-VLA等方案,DreamVLA泛化性更好,并能实现更快、更高效的收敛 [75] - **方位基础模型**:通过模块化方案赋予机器人“方位感知”能力,使其能像人一样从合适方位抓取物体(如抓瓶身而非瓶盖) [76][80] - **解耦世界模型**:将“解耦学习”嵌入世界模型,提取对任务至关重要的环境关键因子,排除非任务相关干扰,从而提升训练效率与模型鲁棒性 [81][83] 研究背景与团队发展 - 研究重点自2024年初开始聚焦世界模型与空间智能,标志着从处理2D视觉信号转向理解3D、4D等高维信号,旨在让AI获得对物理空间的认知能力 [85] - 团队在2025年NeurIPS会议上有两篇合作论文受到广泛关注 [85] - 团队学生培养取得初步成效,2024年有一位博士获得国家奖学金,2025年增加至两位 [91] - 招生最看重学生的自驱力与对科研的热情,并通过实习期进行双向考核 [91][92] 产业应用与场景选择 - 基于宁波强大的制造业背景(拥有104家国家级制造业单项冠军企业,数量全国第一),团队优先选择工业场景构建“工厂世界模型”,与奥克斯空调、均胜电子、吉利汽车等当地龙头企业紧密合作 [93] - 与专注于探索底层原理的知名团队(如LeCun团队、李飞飞团队)不同,该团队采取“两条腿走路”策略,既探索前沿技术,又聚焦有特色的应用场景 [94] 世界模型的构建方法与挑战 - **构建数据**:分为静态数据(物体级静态资产)和动态数据(RGB视频、激光点云、动作捕捉数据),两者均为必需 [95][96] - **构建步骤**:采用自上而下的技术路径,先定义物理规则,再叠加动态数据,最后以静态数据打底,涉及数据采集、处理、合成与模型训练 [97] - **兴起原因**:AIGC技术使得通过生成方式快速创建物理正确、视觉真实的场景成为可能,在效率与成本上相比传统手工建模有量级提升 [97] - **最大挑战**:成本最高的部分是前期静态资产和动态场景数据的创建与采集;技术难度最大的在于将软体、弹性体、流体等第一性原理和物理规则有效嵌入模型中 [98] 技术路径讨论与行业观点 - **关于Sora等视频生成模型**:认为其是否为世界模型取决于应用场景,在游戏、娱乐等内容生成领域有价值,但在需要精细空间感知与动作策略的机器人或自动驾驶领域存在局限性 [99] - **载体差异**:当前趋势是采用数据驱动的端到端模式(如VLA模型),倾向于为不同形态的智能体(汽车、机械臂)构建统一的世界模型服务,避免重复造轮子 [99][100] - **技术路径选择**:团队倾向于“混合”路径,结合端到端黑盒方法的能力与显性、可解释的组件 [101] - **学术界价值**:面对企业界强大的大模型路径,不必焦虑于快速商业变现,技术持续发展总需要新的突破,许多奠基性技术最初源于高校 [102] - **物理规律掌握**:关键在于构建高度物理真实的世界模型本身,若能真实还原材质物理属性,仿真环境中训练出的智能体行为结果会与真实世界一致 [102][103] - **实现方法**:采用知识库与数据库结合的混合路径,对明确规则(如碰撞检测、摩擦力)进行知识嵌入,对复杂现象(如流体运动)则采用数据驱动方法 [104][105]
上交OmniNWM:突破三维驾驶仿真极限的「全知」世界模型
自动驾驶之心· 2025-10-25 00:03
研究概述 - 研究提出了一种名为OmniNWM的全景、多模态、带精确控制与内在奖励的驾驶导航世界模型 [2] - 该模型在生成质量、控制精度与长时序稳定性上全面超越现有SOTA(State-of-the-Art) [2] - 研究为自动驾驶的仿真训练与闭环评估树立了新标杆 [2] 技术框架与核心创新 - 模型核心在于将状态生成、动作控制、奖励评估三者无缝集成,提出了一个创新的统一框架 [10] - 针对现有世界模型的三大核心挑战:状态的局限性、动作的模糊性、奖励的缺失,提供了解决方案 [10] - 首次在状态、动作、奖励三大维度实现统一,构建可交互、可评估、可扩展的综合性虚拟驾驶环境 [8][58] 多模态状态生成能力 - 利用Panoramic Diffusion Transformer (PDiT)作为核心,首次实现RGB、语义图、度量深度图、3D语义Occupancy的联合生成 [11][12] - 四模态输出在像素级别对齐,共享解码器确保跨模态一致性 [12] - 生成的3D Occupancy是奖励计算与闭环规划的核心依据 [13][16] 精确动作控制机制 - 创新性地提出归一化全景Plücker Ray-map作为动作表示,将输入轨迹转化为稠密的射线场指导生成过程 [18] - 通过尺度归一化与位姿归一化,构建统一Plücker空间,支持跨数据集、多相机配置下的零样本泛化 [22][27] - 该策略显著扩展了有效轨迹的覆盖范围,轨迹分布多样性远超原始数据集,支持复杂驾驶行为生成 [28][32] 长时序生成技术 - 引入Flexible Forcing策略,支持生成超过GT(Ground Truth)长度的321帧超长序列 [29][31] - 采用多层级噪声注入,支持帧级自回归和片段级自回归两种推理模式 [32][33] - 该策略显著抑制长时序中的结构退化,FVD@201帧指标为25.22,远优于消融模型的386.72 [34] 内生稠密奖励系统 - 直接利用生成的3D Occupancy定义稠密奖励函数,无需依赖外部模型 [35] - 奖励函数包含碰撞惩罚、越界惩罚和速度奖励三项,用于评估驾驶行为的合规性与安全性 [35][36][39] - 在测试场景中,奖励函数能有效区分碰撞、避让不足、成功规避三种行为 [41] 闭环规划与评估 - 引入专用的Vision-Language-Action (VLA) 规划器OmniNWM-VLA,基于多模态大模型Qwen-2.5-VL构建 [43] - 核心创新是Tri-Modal Mamba-based Interpreter (Tri-MIDI)融合模块,轻量且即插即用 [44] - 模型采用因果语言建模目标,将轨迹视为"动作序列"进行预测,能学习驾驶场景下的时空连贯性与物理合理性 [48][50] 实验性能与评估 - 在视频生成质量上,无需Occupancy或点云等体积条件,仍超越所有SOTA模型 [51][52] - 在深度图生成和3D Occupancy预测任务中,以生成的方式超越所有SOTA的预测类模型 [53][54] - 支持零样本泛化,可无缝迁移到nuPlan与内部数据集,支持不同相机数量配置且无需微调 [56]