UniScene - 财报，业绩电话会，研报，新闻

UniScene

搜索文档

自动驾驶之心· 2025-12-29 17:17

世界模型在自动驾驶领域的愿景与探索 - 世界模型的愿景是理解并改变物理世界，其核心在于以持续技术突破引领生成式AI自动驾驶范式，重塑自动驾驶底层能力 [2] - 自动驾驶领域对世界模型的探索持续进行，主要方向包括视频生成、OCC生成以及Lidar点云生成或视觉与点云的联合生成 [3] - 许多公司基于开源算法搭建云端或车端世界模型，用于长尾数据生成或闭环仿真与评测，部分公司正尝试基于世界模型直接赋能车端驾驶能力 [4] 世界模型的技术定义与学习挑战 - 世界模型的定义尚不清晰，存在“生成即世界模型”与“生成加重建即世界模型”等不同理解，导致新入行者容易混淆 [5] - 对于初学者而言，理解世界模型并完成数据生成、闭环仿真等后续任务非常困难，部分从业者甚至花费半年时间仍难以有效入门 [6] 自动驾驶世界模型课程概述 - 该课程由自动驾驶之心平台联合工业界算法专家Jason推出，旨在从原理到实战帮助学习者掌握自动驾驶世界模型领域，是国内首个《世界模型与自动驾驶小班课》 [6][8] - 讲师Jason拥有C9本科与QS50博士学位，发表多篇CCF-A/B论文，现任国内TOP主机厂算法专家，主持并完成多项自动驾驶感知与端到端算法的产品量产交付 [8] - 课程为离线视频教学，开课时间为1月1日，预计两个半月结课，提供VIP群答疑及三次线上答疑，答疑服务截止2026年12月31日 [20] 课程大纲与核心内容 - **第一章：世界模型介绍** 复盘世界模型与端到端自动驾驶的联系，讲解其发展历史、应用案例、不同技术流派及其在业界解决的问题与所处环节 [11] - **第二章：世界模型的背景知识** 讲解世界模型的基础知识，包括场景表征、Transformer、BEV感知等，这些内容是当前世界模型求职面试频率最高的技术关键词 [11][12] - **第三章：通用世界模型探讨** 聚焦通用世界模型及近期热门工作，深入讲解Marble、Genie 3、JEPA、导航世界模型、DriveVLA-W0及特斯拉的世界模型模拟器等模型的核心技术与设计理念 [12] - **第四章：基于视频生成的世界模型** 聚焦视频生成类算法，讲解Wayve的GAIA-1 & GAIA-2、上交的UniScene、商汤的OpenDWM、中科大的InstaDrive等经典与前沿工作，并以商汤开源的OpenDWM进行实战 [13] - **第五章：基于OCC的世界模型** 聚焦OCC生成类算法，涵盖三大论文讲解与一个项目实战，此类方法可扩展至自车轨迹规划，进而实现端到端自动驾驶 [14] - **第六章：世界模型岗位专题** 分享世界模型在工业界的应用现状、行业痛点、期望解决的问题以及相关岗位的面试准备与公司关注点 [15] 课程技术细节与学习收获 - 课程背景知识部分将详细讲解Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真中的NeRF与3DGS，以及其他生成式模型如VAE、GAN等 [17] - 基于OCC的世界模型部分将涵盖清华的OccWorld、复旦的OccLLaMA、华科的HERMES以及西交最新的II-World等工作 [18] - 学完本课程后，学习者预期能达到约1年经验的自动驾驶世界模型算法工程师水平，掌握技术进展，对BEV感知、多模态大模型等关键技术有更深刻理解，并可复现II-World、OpenDWM等主流算法框架 [19] 课程安排与参与要求 - 课程章节按计划逐步解锁：第一章于12月10日解锁，第二章于1月1日解锁，第三章于1月20日解锁，第四章于2月4日解锁，第五章于2月24日解锁，第六章于3月1日解锁 [21] - 学习本课程需要自备GPU，推荐算力在RTX 4090及以上，并需具备一定的自动驾驶领域基础、了解Transformer大模型等基本概念、拥有概率论与线性代数基础以及Python和PyTorch编程能力 [19]

东方理工金鑫：如何找到自动驾驶与机器人统一的「空间语言」丨GAIR 2025

雷峰网· 2025-12-14 14:27

文章核心观点 - 文章介绍了宁波东方理工大学金鑫教授团队在空间智能与世界模型领域的研究进展，其核心思路是采用“混合”路径构建世界模型，即结合明确的物理规则知识与数据驱动方法，并率先应用于工业制造等产业场景以实现技术验证与落地 [3][4][5] 空间智能（世界模型）的起源与概念 - 空间智能概念在SLAM技术时期已被讨论，2024年由斯坦福大学李飞飞教授拓展至与物理世界的交互、感知和理解 [8] - 世界模型技术近期取得显著进步，例如李飞飞团队发布的Marble 3D世界模型和谷歌DeepMind发布的Genie 3，后者在写实性、一致性及物理正确性上达到更高水平 [9] - 世界模型有望成为继数据增强、数据合成之后，为人工智能训练提供高效路径的新选择 [9] 空间智能的技术框架 - 团队将空间智能或世界模型划分为三个部分：空间感知（基础3D建模与物理定律嵌入）、空间交互（支持智能体与环境及多智能体间互动）、空间的理解泛化与生成（基于充分理解衍生生成能力） [10][12][13][14] - 整体工作细分为两个方向：空间构建（搭建仿真环境）与智能体训练（在环境中训练AI），两者可形成不断优化迭代的闭环 [15][18] 核心研究成果：自动驾驶场景生成 - **UniScene**：团队提出的专注于驾驶场景生成的工作，已被CVPR接收，后续有V2等版本 [20] - **生成动机**：由于合规、隐私及车队规模限制，真实数据难以覆盖足够多的“corner case”危险场景，需通过生成式方法合成逼真有价值的场景数据 [22] - **技术路径**：采用以Occupancy（占据栅格）为中心的生成方案，因其蕴含丰富语义与必要几何信息，是连接场景理解与建模的有效“桥梁” [27][32] - **生成流程**：以简单的鸟瞰图布局为输入，首先生成语义Occupancy，再以此为中心分别衍生生成激光雷达点云和多视角视频，是一个两阶段的解耦过程 [34] - **进展与产业合作**：UniScene V2版本在NuPlan数据集上扩展了数据量，新增深度图和语义分割模态，并能根据车辆传感器位置生成对应视角数据 [37][40]；该版本在GitHub上线不到一周获得数百个star（后超过2000个） [41]；正与理想汽车合作，测试生成器对带有镜头畸变数据的泛化能力，以低成本支持其自动驾驶算法迭代 [41] 核心研究成果：规划与机器人场景生成 - **OmniNWM**：团队引入闭环的“规划-生成”串联机制，将规划的轨迹作为条件输入，预测执行该轨迹后未来场景的变化，可称为“万能的驾驶导航世界模型” [42][44] - **模型能力**：需同时预测全景RGB视频、语义分割、深度图、3D结构及未来规划轨迹，重点在于状态、动作及闭环奖励三个维度的扩展 [45][50] - **技术迁移**：将相同方法论迁移至机器人领域，应用于具身智能场景进行数据合成，能以Occupancy为桥梁生成机器人视频，处理软体、绳体等物体的数据合成，并与主流仿真器兼容实现批量并行生成 [45] 核心研究成果：机器人数据与训练模型 - **InterVLA数据集**：为补充机器人第一人称视角数据缺失，团队构建了包含约3.9千个序列的新基准数据集，包含第一人称视角视频、第三人称视角视频及动作捕捉数据 [46][49][57] - **DreamVLA模型**：针对“抓放”等任务，提出将大语言模型中的“思维链”思想引入视觉-语言-动作模型，让模型在输出最终动作前，先输出“世界嵌入”或“世界知识”等中间产物，形成多模态推理链条 [63][71][73] - **模型效果**：相比于Open-VLA等方案，DreamVLA泛化性更好，并能实现更快、更高效的收敛 [75] - **方位基础模型**：通过模块化方案赋予机器人“方位感知”能力，使其能像人一样从合适方位抓取物体（如抓瓶身而非瓶盖） [76][80] - **解耦世界模型**：将“解耦学习”嵌入世界模型，提取对任务至关重要的环境关键因子，排除非任务相关干扰，从而提升训练效率与模型鲁棒性 [81][83] 研究背景与团队发展 - 研究重点自2024年初开始聚焦世界模型与空间智能，标志着从处理2D视觉信号转向理解3D、4D等高维信号，旨在让AI获得对物理空间的认知能力 [85] - 团队在2025年NeurIPS会议上有两篇合作论文受到广泛关注 [85] - 团队学生培养取得初步成效，2024年有一位博士获得国家奖学金，2025年增加至两位 [91] - 招生最看重学生的自驱力与对科研的热情，并通过实习期进行双向考核 [91][92] 产业应用与场景选择 - 基于宁波强大的制造业背景（拥有104家国家级制造业单项冠军企业，数量全国第一），团队优先选择工业场景构建“工厂世界模型”，与奥克斯空调、均胜电子、吉利汽车等当地龙头企业紧密合作 [93] - 与专注于探索底层原理的知名团队（如LeCun团队、李飞飞团队）不同，该团队采取“两条腿走路”策略，既探索前沿技术，又聚焦有特色的应用场景 [94] 世界模型的构建方法与挑战 - **构建数据**：分为静态数据（物体级静态资产）和动态数据（RGB视频、激光点云、动作捕捉数据），两者均为必需 [95][96] - **构建步骤**：采用自上而下的技术路径，先定义物理规则，再叠加动态数据，最后以静态数据打底，涉及数据采集、处理、合成与模型训练 [97] - **兴起原因**：AIGC技术使得通过生成方式快速创建物理正确、视觉真实的场景成为可能，在效率与成本上相比传统手工建模有量级提升 [97] - **最大挑战**：成本最高的部分是前期静态资产和动态场景数据的创建与采集；技术难度最大的在于将软体、弹性体、流体等第一性原理和物理规则有效嵌入模型中 [98] 技术路径讨论与行业观点 - **关于Sora等视频生成模型**：认为其是否为世界模型取决于应用场景，在游戏、娱乐等内容生成领域有价值，但在需要精细空间感知与动作策略的机器人或自动驾驶领域存在局限性 [99] - **载体差异**：当前趋势是采用数据驱动的端到端模式（如VLA模型），倾向于为不同形态的智能体（汽车、机械臂）构建统一的世界模型服务，避免重复造轮子 [99][100] - **技术路径选择**：团队倾向于“混合”路径，结合端到端黑盒方法的能力与显性、可解释的组件 [101] - **学术界价值**：面对企业界强大的大模型路径，不必焦虑于快速商业变现，技术持续发展总需要新的突破，许多奠基性技术最初源于高校 [102] - **物理规律掌握**：关键在于构建高度物理真实的世界模型本身，若能真实还原材质物理属性，仿真环境中训练出的智能体行为结果会与真实世界一致 [102][103] - **实现方法**：采用知识库与数据库结合的混合路径，对明确规则（如碰撞检测、摩擦力）进行知识嵌入，对复杂现象（如流体运动）则采用数据驱动方法 [104][105]