闭环仿真
搜索文档
摸底GS重建在自动驾驶业内的岗位需求
自动驾驶之心· 2026-01-24 10:55
行业需求与岗位分析 - 有企业在2026年需要在重建方向投入招聘名额(HC) [2] - 重建技术主要用于自动驾驶测试的闭环仿真 具体流程是对离线片段(clip)数据用3D高斯泼溅(3DGS)重建动静态元素 以验证新模型能否预测合理新轨迹并正常行驶 [2] - 支撑闭环仿真中重建优化一般需要5至20人的算法团队 [3] - 云端数据生产也存在需求 例如BEV视角下的静态路面重建(2DGS)可应用于静态真值生产 [3] - 小米的ParkGaussian将GS技术应用到泊车场景中 [3] - 每个技术方向至少需要10人左右的算法团队规模来支撑最基本功能需求 [3] 技术发展路线与学习资源 - 3D高斯泼溅(3DGS)领域较新 缺乏有效学习资料 对初学者存在困难 [3] - 梳理出的明确技术发展路线为:静态重建3DGS → 动态重建4DGS → 表面重建2DGS → 场景重建混合GS → 前馈GS [3] - 为应对学习需求 推出了《3DGS理论与算法实战教程》 花费两个月时间设计了一套从原理到实战的学习路线图 [3] 课程内容与结构 - 课程第一章讲解3DGS背景知识 包括计算机图形学基础、三维空间表达、渲染管线、光线追踪、辐射场渲染 并介绍SuperSplat、COLMAP、Gsplat等开发工具 附带基于3D Real Car训练模型及使用SuperSplat移除杂点的作业 [8] - 第二章深入讲解3DGS原理和算法 包括核心伪代码 以及动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法 实战选用英伟达开源的3DGRUT框架 [9] - 第三章聚焦自动驾驶仿真重建 重点讲解浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作 实战选用学术界和工业界使用较多的DriveStudio [10] - 第四章探讨3DGS重要研究方向 包括COLMAP扩展、深度估计及重光照(Relighting) 并分享这些方向如何服务工业界及未来走势 [11] - 第五章讲解前馈3DGS(Feed-Forward 3DGS) 梳理其发展历程和算法原理 并讲解最新的AnySplat和WorldSplat算法工作 [12] - 第六章为线上答疑讨论 内容涉及3DGS岗位需求、行业痛点及开放性问题 [13] 课程安排与面向人群 - 课程于12月1日开课 预计两个半月结课 采用离线视频教学 辅以VIP群答疑及三次线上答疑 [15] - 课程章节解锁时间安排如下:第一章12月1日 第二章12月7日 第三章1月7日 第四章1月21日 第五章2月4日 [15] - 学习本课程需要自备GPU 推荐算力在RTX 4090及以上 并需具备一定的计算机图形学基础、对视觉重建/NeRF/3DGS等技术的了解、概率论与线性代数基础、以及Python和PyTorch语言基础 [17] - 课程目标使学员掌握3DGS完善的理论知识及相关技术栈、掌握算法开发框架并能训练开源模型、与学术界及工业界同行持续交流 对实习、校招、社招均有助益 [17]
刚做了一份世界模型的学习路线图,面向初学者......
自动驾驶之心· 2025-12-25 11:24
世界模型与端到端自动驾驶的关系 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径[2] - 行业将自动驾驶世界模型的研究收敛于生成和重建两大领域[2] - 目前主流应用是利用世界模型进行闭环仿真,以应对Corner Case成本过高的问题[2] 世界模型课程核心内容架构 - 课程第一章概述世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派[5] - 课程第二章涵盖世界模型的基础知识,包括场景表征、Transformer、BEV感知等,是求职面试的高频技术点[5][6] - 课程第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、DriveVLA-W0及特斯拉世界模型模拟器等前沿工作[6] - 课程第四章聚焦视频生成类世界模型,讲解Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等算法,并以OpenDWM进行实战[7] - 课程第五章聚焦OCC生成类世界模型,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划[8] - 课程第六章分享世界模型在工业界的应用现状、行业痛点、期望解决的问题以及相关岗位的面试准备经验[9] 世界模型涉及的关键技术栈 - 基础技术包括Transformer、视觉Transformer、CLIP、LLaVA等多模态大模型基础[11] - 涉及BEV感知基础知识及占用网络[11] - 涵盖扩散模型理论,该模型是输出多模轨迹的热点技术[11] - 包括闭环仿真相关的NeRF和3DGS技术[11] - 也涉及其他生成式模型,如VAE、GAN以及Next Token Prediction[11] 世界模型相关的重要研究 - 国内重要研究包括清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交的II-World[12] 课程目标与受众要求 - 课程目标是推动端到端自动驾驶在工业界的落地,助力从业者深入理解端到端技术[10] - 学员需自备GPU,推荐算力在4090及以上[13] - 学员需具备自动驾驶领域基础,熟悉其基本模块[13] - 学员需了解transformer大模型、扩散模型、BEV感知等基本概念[13] - 学员需具备一定的概率论、线性代数及Python、PyTorch基础[13] - 课程期望使学员达到约1年经验的自动驾驶算法工程师水平,掌握世界模型技术进展及BEV感知等关键技术,并能复现主流算法框架[13] 课程进度安排 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[14] - 各章节解锁时间:第一章12月10日,第二章1月1日,第三章1月20日,第四章2月4日,第五章2月24日,第六章3月1日[15]
理想披露了一些新的技术信息
自动驾驶之心· 2025-11-28 08:49
端到端模型与VLA技术路线 - 理想汽车在端到端模型结合视觉语言模型量产的后期发现两大问题:训练数据量超过1000万片段后,模型性能提升速度显著变慢,5个月内平均无干预接管里程仅增长约2倍[5];端到端模仿学习缺乏深度逻辑思维能力,导致违反常理行为、决策不够智能及安全感不足[5] - 为解决上述问题,公司引入视觉语言模型,并主推视觉语言行为模型量产,期望其平均无干预接管里程达到1000公里以上[2][5] - 视觉语言行为模型具备三大核心能力:空间智能代表对远距空间和全局语义的理解能力;语言智能代表通过思维链生成决策并听懂人类指令,联合训练后推理速度可达10赫兹以上;行为策略代表使用扩散模型直接生成平滑轨迹,支持多种驾驶可能性[6] 仿真测试与闭环训练体系 - 公司升级模型评测方式,使用世界模型进行闭环仿真和测试,使后训练和强化学习环节的评测效率更高,测试成本从每公里18.4元大幅降低至0.53元[9] - 基于世界模型构建的仿真平台可实现强化学习,架构包括云端训练平台进行数据管理和奖励模型更新,更新后的模型在仿真平台运行,高价值数据反馈至样本库[11] - 为配合区域仿真,公司构建世界模型3D资产库,可根据训练需求将资产注入仿真世界作为交通参与智能体[12] 算力资源配置 - 理想汽车总算力达到13EFLOPS,其中10EFLOPS用于训练,3EFLOPS用于推理[13] - 公司拥有5万张训练和推理卡,推理卡算力等效3万个L20,训练卡算力等效2万个H20[13] - 在视觉语言行为模型时代,推理算力尤为重要,缺乏推理卡将无法生成仿真训练环境[13]