扩散模型
搜索文档
都在聊轨迹预测,到底如何与自动驾驶结合?
自动驾驶之心· 2025-08-16 08:03
扩散模型在自动驾驶领域的应用综述 - 扩散模型凭借强大的多模态建模能力,能够从复杂数据分布中生成多样性强、符合物理约束的结果,为自动驾驶系统提供新的解决方案 [2] - 该技术可显著提升数据多样性、增强感知系统鲁棒性,并有效辅助决策模块处理各类不确定性,已成为自动驾驶基础模型重要的一环 [3] 感知与三维占用预测 - 基于扩散模型的三维占用预测方法显著优于传统判别方法,尤其在处理遮挡或低可见度区域时表现突出,生成的占用特征能有效支持下游规划任务 [5] - 条件扩散模型被应用于驾驶场景的精准图像翻译,帮助系统更好地理解和适应各种道路环境 [5] 预测与决策应用 - 稳定扩散模型可高效完成车辆轨迹预测任务,生成高精度的其他车辆运动轨迹预测结果,显著提升自动驾驶系统的预测能力 [5] - DiffusionDrive框架利用扩散模型对多模态动作分布的建模能力,通过多模态锚点和截断的扩散机制处理驾驶决策中的不确定性,实现了端到端自动驾驶的创新应用 [5] 数据生成与合成 - 扩散模型有效解决了自然驾驶数据集多样性不足、真实性与可控性受限的难题,为自动驾驶验证提供高质量合成数据 [5] - 可控生成技术对解决3D数据标注挑战尤为重要,未来还将探索视频生成以进一步提升数据质量 [5] 驾驶场景生成技术 - 双条件时间扩散模型(DcTDM)通过引导帧转换结合双条件来增强时间一致性,能够生成长达40秒、节奏一致且连贯的驾驶视频 [7] - 该模型在一致性和帧质量方面性能优于其他视频扩散模型,提高了25%以上 [7] - LD-Scene框架融合大语言模型与潜在扩散模型,通过自然语言实现用户可控的对抗性场景生成,支持对碰撞类型与强度等对抗行为的细粒度控制 [11] 多视角场景生成 - DualDiff双分支条件扩散模型引入占用射线采样(ORS)作为语义丰富的3D表示,结合数值驾驶场景表示实现全面的前景与背景控制 [14] - 该模型在FID分数上达到最先进水平,并在下游的BEV分割和3D目标检测任务中取得更优结果 [14][17] - DiVE基于扩散Transformer的生成框架专门设计用于生成高保真、时间连贯且跨视图一致的多视图视频,能够与鸟瞰图布局和文本描述无缝对齐 [19][22] 交通仿真与场景生成 - DriveGen基于大模型的新型交通仿真框架可生成多样化交通场景并支持定制化设计,包含LLM生成地图及车辆资产的初始化阶段和VLM选取路径点目标的推理阶段 [26][27] - Scenario Dreamer是一种完全数据驱动的自动驾驶规划生成仿真器,其核心是新颖的向量化潜在扩散模型,以约2倍更少的参数、6倍更低的生成延迟实现优于最强基线的生成质量 [28][33] 视频生成与质量控制 - DualDiff+引入奖励引导扩散(RGD)框架维持生成视频的全局一致性和语义连贯性,在NuScenes数据集上将FID分数降低4.09% [34][36] - 在下游任务中,车辆mIoU提升4.50%,道路mIoU提升1.70%,前景mAP提高1.46% [34] 安全关键场景生成 - AVD2事故视频扩散描述框架通过生成与详细自然语言描述及推理对齐的事故视频,增强事故场景理解能力 [39][42] - CCDiff因果组合扩散模型识别智能体间的潜在因果结构并融入场景编码器,提升生成场景的真实性,在碰撞率、偏离道路率等关键指标上展示改进的闭环性能 [44][48] 可控生成与优化技术 - 多引导扩散模型采用直接偏好优化(DPO)算法进行微调,基于引导分数优化偏好,有效应对引导采样微调过程中的复杂性和挑战 [51][52] - SceneDiffuser分摊扩散仿真技术将去噪计算成本分摊至未来仿真步骤中,显著降低单步推演成本(推理步数减少16倍),同时缓解闭环误差 [55][58] 道路场景生成 - DiffRoad扩散模型通过逆向去噪过程从白噪声中合成道路布局,保留真实世界的空间特征,设计的Road-UNet架构优化主干网络和跳跃连接之间的平衡 [59][62] - 该模型能够生成真实且平滑的道路结构,同时保持原始分布特性,生成的场景可以完全自动化转换为OpenDRIVE格式 [61][62] 评估与验证应用 - 基于扩散模型的方法通过融合行为复杂性和交通密度的对抗性引导函数,增强更有效、更真实的安全关键交通场景的生成 [65][67] - AdvDiffuser基于引导扩散的对抗性框架结合扩散模型捕捉背景车辆的合理群体行为,并利用轻量级引导模型有效处理对抗场景,提升可迁移性 [68][71] 系统性能与效率 - SLEDGE基于真实驾驶日志训练的生成式仿真器需要生成的实体具有独特属性,结合对现有车道图表示的系统研究,引入新颖的光栅到矢量的自编码器 [75][76] - 该仿真器支持500米长的路线,使2023年nuPlan挑战赛获胜者PDM的失败率超过40%,所需存储空间减少500倍(<4 GB) [76] 行为仿真与生成 - 通用行为扩散(VBD)框架利用扩散生成模型在闭环环境中预测场景一致且可控的多智能体交互,在Waymo仿真智能体基准测试中实现最先进的性能 [83][84] - 该框架通过基于行为先验和模型优化目标的多步细化,支持推理时的场景编辑,满足各种交通仿真应用中的广泛用户需求 [83] 图像与视频生成 - GenDDS基于隐扩散模型Stable Diffusion XL的驾驶场景生成方法,通过描述性提示引导合成过程,生成逼真且多样化的驾驶场景 [85][88] - GEODIFFUSION将各种几何条件转换为文本提示,赋能预训练的文本到图像扩散模型进行高质量检测数据生成,性能优于先前的L2I方法且训练时间快4倍 [95][96] 街景图像生成 - Text2Street框架通过三阶段实现可控生成:车道感知道路拓扑生成器、基于位置的目标布局生成器和多控制图像生成器 [100][102] - 在nuScenes数据集上显著优于Stable Diffusion等模型,车道计数准确率提升14.91%,目标计数准确率提升16.5% [101][103] 全景视频生成 - Panacea方法生成驾驶场景中的全景可控视频,产生无限量多样化的标注样本,融合新型4D注意力机制与两阶段生成流程以维持一致性 [104][106] - 通过ControlNet框架实现对鸟瞰图布局的精细化控制,能高效生成高质量多视角驾驶场景视频 [104] 布局引导生成 - DrivingDiffusion时空一致的扩散框架用于生成由3D布局控制的真实多视角视频,通过级联多视角单帧图像生成、多摄像头共享的单视角视频生成和后处理步骤解决问题 [119][121] - 该模型在复杂城市场景中生成大规模真实多摄像头驾驶视频,为下游驾驶任务提供支持 [119] 几何控制生成 - MagicDrive街景生成框架通过定制化编码策略融合相机位姿、道路地图、3D包围盒及文本描述,实现多样化3D几何控制 [124][125] - 与现有方法相比,通过分离前景与背景编码避免了BEV投影导致的几何信息丢失,同时支持天气、时间等场景属性控制 [125][128] 场景生成与验证 - DriveSceneGen数据驱动的驾驶场景生成方法从真实驾驶数据集学习并从零开始生成完整的动态驾驶场景,能够以高保真度和多样性生成与真实世界数据分布一致的新型驾驶场景 [128][129] - 在5000个生成场景上的实验结果突显了与真实世界数据集相比的生成质量、多样性和可扩展性 [129] 控制生成技术 - BEVControl两阶段生成方法可精确控制前景与背景内容,支持草图式输入便于人工编辑,在前景分割mIoU上显著超越当前最优方法BEVGen(5.89→26.80) [134][135] - 使用其生成图像训练下游感知模型,NDS指标平均提升1.29 [134] 安全评估生成 - DiffScene基于扩散的安全关键场景生成方法利用扩散模型近似低密度空间分布的能力,设计了多个对抗性优化目标指导扩散生成 [138][139] - 与6个最先进的基线方法相比,生成的场景在3个指标上更具安全关键性,在5个距离函数上更真实,对不同自动驾驶算法更具可转移性 [138] 交通仿真生成 - 场景扩散(Scene Diffusion)系统结合扩散模型与目标检测,直接生成具有现实性和物理合理性的智能体离散边界框布局,能够适应美国不同的地区并捕捉每个地区的复杂特征 [141][144] - 可控交通生成(CTG)条件扩散模型允许用户在测试时控制轨迹的期望属性,同时通过强制动力学保持逼真性和物理可行性 [145][148]
端到端离不开的轨迹预测,这个方向还有研究价值吗?
自动驾驶之心· 2025-08-16 08:03
自动驾驶轨迹预测研究现状 - 端到端方案尚未普及 分层方案仍是主流 轨迹预测作为核心算法持续受到关注[1] - 多智能体轨迹预测面临行为不确定性和多模态性挑战 传统RNN/CNN/GNN方法存在局限[1] - 扩散模型在轨迹预测领域取得突破 显著提升多模态建模能力 如LED模型加速19-30倍[2] - MGF模型通过混合高斯先验优化多峰分布 在UCY/ETH数据集达到SOTA性能[2] - MPMNet创新性引入人类运动模式记忆库 增强轨迹生成的多样性[2] 课程技术框架 - 融合扩散生成机制与社会交互建模 支持目标点和环境因素条件控制[3] - 采用ETH/UCY/SDD等标准数据集 与LED/MGF等主流方法进行对比验证[3][20] - 提供预处理脚本和baseline代码 包括LED/SingularTrajectory等开源框架[21][22] - 重点解析CVPR2023-2024前沿论文 如跳跃扩散/混合高斯流等创新方法[23] 课程体系设计 - 12周科研+2周论文指导+10周维护期 覆盖选题/实验/写作全流程[9][30] - 2+1师资配置 名校教授+行业导师+科研班主任三重支持[16][17] - 前测-跟踪-反馈闭环机制 配备学员表现评估体系[18] - 阶段产出包括论文初稿/结业证书/推荐信等学术成果[19] 教学实施细节 - 每周1-1.5小时课程 包含经典方法/扩散模型/条件控制等14个模块[24][25] - 硬件要求16GB内存+4GB显存GPU 需掌握Python/PyTorch基础[12][15] - 强制完成课前阅读/作业/2小时课后自学 全勤要求严格[15] - 提供基础先修课 包含Linux开发/PyTorch调试等补充内容[14] 目标学员群体 - 本硕博学生及从业人员 需提升轨迹预测/diffusion领域研究能力[8] - 申请留学或求职者 需增强简历竞争力和论文产出[8] - 科研需求明确但缺乏系统方法 需完整论文写作指导[6][9]
死磕技术的自动驾驶黄埔军校,4000人了!
自动驾驶之心· 2025-08-15 22:23
社区定位与愿景 - 致力于成为连接学术界与工业界的桥梁 推动自动驾驶技术发展 [2] - 构建包含产业研究、学术交流、求职服务、技术问答的闭环生态 [2] - 提供前沿技术内容 包括40+技术路线梳理和工业界专家资源 [3][16] 技术资源体系 - 覆盖40+技术方向 包含感知、规划控制、仿真、VLA等核心领域 [5][16] - 整理60+自动驾驶数据集 包含多模态大模型专用数据集 [34] - 汇总开源项目 涉及3D检测、BEV感知、世界模型等热门方向 [32] - 提供学术与工业级解决方案 包括端到端自动驾驶量产方案 [36] 学习体系 - 设计完整学习路线 包含感知、仿真、规划控制等方向 [16][17] - 提供基础到进阶的课程 涵盖数学、CV、深度学习等基础知识 [5] - 开设专项视频课程 包含数据工程、多传感器标定等实操内容 [6] - 整理经典教材与课程资料 覆盖自动驾驶全技术栈 [30] 行业资源 - 汇总国内外头部自动驾驶企业与高校研究团队 [26][28] - 建立企业内推机制 连接蔚小理、华为等头部公司 [6][16] - 分析行业发展趋势 跟踪RoboTaxi、重卡等细分领域 [28] 专家网络 - 邀请数十位产业界专家 来自头部企业和顶尖高校 [3][16] - 组织超过100场技术直播 分享最新研究成果 [81] - 提供实时答疑服务 解决技术难题和职业发展问题 [22][82] 技术热点覆盖 - 重点布局VLA、世界模型、扩散模型等前沿方向 [44][47] - 深入BEV感知、3D目标检测等量产关键技术 [49][51] - 跟踪Occupancy Network、NeRF等新兴技术 [38][56]
端到端盛行的当下,轨迹预测这个方向还有研究价值吗?
自动驾驶之心· 2025-08-12 16:05
端到端与轨迹预测研究价值 - 尽管端到端方案流行,但分层方案仍被广泛采用,轨迹预测作为核心算法仍是研究热点[1] - 行业持续关注联合轨迹预测和目标轨迹预测,相关学术会议和期刊保持高产出量[1] - 多智能体轨迹预测在自动驾驶、智能监控等领域具有关键应用价值,但面临行为不确定性和多模态性挑战[1] 扩散模型技术突破 - LeapfrogDiffusionModel(LED)采用可训练跳跃初始化器,实现19-30倍加速并在NBA/NFL等数据集提升精度[2] - MixedGaussianFlow(MGF)通过混合高斯先验匹配多峰分布,在UCY/ETH数据集达到SOTA性能[2] - MPMNet创新性使用运动模式记忆库引导扩散模型生成多样化轨迹[2] 课程技术体系 - 研究框架融合扩散生成机制、社会交互建模与条件控制机制[3] - 验证数据集覆盖ETH/UCY/SDD等主流基准,对比LED/MGF/SingularTrajectory等方法[3] - 预期产出包括算法框架、定量分析、可视化成果及高水平论文[3] 课程培养目标 - 构建轨迹预测知识体系,衔接理论知识与代码实践[6] - 提供论文创新思路到投稿的全流程支持,包含写作方法论与修稿指导[6] - 通过12周科研+2周论文指导+10周维护期实现论文初稿产出[9] 技术资源支持 - 提供ETH/UCY/SDD等预处理数据集及开源框架(LED/SingularTrajectory/MGF等)[20][21][22] - 重点论文覆盖CVPR 2023-2024最新成果,包括LED/MGF/MPMNet等创新模型[23] - 课程安排包含14周系统训练,涵盖扩散模型原理、社会交互建模到投稿全流程[24][25] 教学服务体系 - "2+1"师资配置(教授+行业导师+班主任)提供全周期学术支持[16][17] - 包含学前评估、个性化教学跟踪、学术复习等标准化流程[18] - 产出包含论文初稿、结业证书及推荐信(优秀学员)[19] 学员能力要求 - 需掌握Python/PyTorch及Linux开发基础,GPU配置要求16GB内存+4GB显存[10][12][15] - 学习强度要求每周1-2小时自学,按时完成作业并保持全勤[15] - 提供基础补齐课程(深度学习/PyTorch入门)支持零基础学员[14][26]
基于扩散模型的多智能体轨迹预测方法1v6小班课来了!
自动驾驶之心· 2025-08-11 13:45
课题简介 - 核心观点:研究基于扩散模型的多智能体轨迹预测方法,解决自动驾驶、智能监控和机器人导航等场景中的轨迹预测难题 [1] - 传统方法依赖循环神经网络、卷积网络或图神经网络,生成模型如GAN和CVAE效率不高 [1] - 扩散模型通过逐步去噪实现复杂分布生成,在轨迹预测中显著提升多模态建模能力 [1] - LeapfrogDiffusionModel(LED)采用可训练跳跃初始化器,减少去噪步骤并加速19–30倍,在NBA/NFL/SDD/ETHUCY等数据集上提升精度 [1] - MixedGaussianFlow(MGF)构建混合高斯先验匹配多峰分布,在UCY/ETH和SDD数据集上达到最先进性能 [1] - Pattern Memory-based Diffusion Model(MPMNet)聚类人类运动模式构建记忆库,引导生成多样合理轨迹 [1] 研究目标与预期成果 - 综合利用扩散生成机制建模轨迹不确定性,融合社会交互建模与条件控制机制 [2] - 在ETH、UCY、SDD等公开数据集验证,与LED、MGF、SingularTrajectory等方法系统比较 [2] - 预期产出包括算法框架、定量与可视化展示、高水平论文,应用于自动驾驶、智能监控和服务机器人领域 [2] 课程目的 - 系统掌握轨迹预测与扩散模型理论知识,形成清晰体系 [5] - 结合模型理论与代码实践,复现论文并开发新模型 [5] - 积累论文写作方法论,获得修稿指导与投稿建议 [5] 招生对象 - 轨迹预测与自动驾驶方向的本硕博学生 [7] - 申硕申博、国外留学需提升简历者 [7] - 从事自动驾驶轨迹预测或diffusion领域工作需提升算法理论者 [7] 课程收获 - 经典与前沿论文分析、代码实现、创新点与baseline [7] - 选题方法、实验方法、写作方法、投稿建议 [7] - 12周在线科研+2周论文指导+10周论文维护期,产出论文初稿 [8] 招生要求 - 基础要求:具备深度学习基础,熟悉Python与PyTorch [9] - 硬件要求:至少16GB内存和4GB显存NVIDIA GPU(如RTX 3080) [11] - 学习要求:掌握Python编程、PyTorch框架、Linux开发调试能力 [14] 课程亮点 - "2+1"式师资:名校教授+行业导师+科研班主任全程跟踪 [15][16] - 全周期服务:入学测试、个性化教学、学术复习与报告指导 [17] - 高学术标准:产出论文初稿、结业证书、优秀学员推荐信 [18] 课程资源 - 数据集:提供ETH、UCY、SDD等公开行人或车辆轨迹数据集 [19] - Baseline代码:提供LED、SingularTrajectory、MGF、MPMNet等开源框架 [20][21] - 必读论文:包括CVPR 2023/2024、NeurIPS 2024等顶会论文 [22] 课程大纲 - 先导课:轨迹预测任务与扩散模型基础 [23] - 经典方法:LSTM、Social Pooling、Graph-based model [23] - 扩散模型专题:LED加速推理、MGF多模态多样性、MPMNet运动模式引导 [23] - 高级话题:条件控制、社会交互建模、不确定性分析 [23] - 论文写作:结构设计、创新点表达、实验可视化 [23] 服务方式 - 班主任督学+腾讯会议直播+小鹅通回放 [25] - 课程周期:12周科研+2周指导+10周维护期 [29] - 基础补齐:提供先修课程与基础论文 [25]
即将开课!端到端与VLA自动驾驶小班课来啦(扩散模型/VLA等)
自动驾驶之心· 2025-08-11 07:32
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向,自UniAD获得CVPR Best Paper后引发国内智驾军备竞赛 [2] - 2024年理想汽车宣布E2E+VLM双系统架构量产,技术通过传感器数据直接输出规划或控制信息,避免模块化方法误差累积 [2] - BEV感知打破模块化壁垒,UniAD统一感知和规划任务,推动端到端技术进入新阶段 [2] - 当前技术需掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等跨领域知识 [3] 技术课程核心内容 - 课程涵盖二段式端到端(PLUTO)、一段式端到端(UniAD)、基于世界模型(OccWorld)、基于扩散模型(DiffusionDrive)及VLA方向 [7] - 第一章解析端到端发展历史及模块化到端到端的演变,对比一段式、二段式、VLA范式优缺点 [9] - 第二章重点讲解背景知识,包括VLA涉及的大语言模型、扩散模型、强化学习及BEV感知 [9][12] - 第三章聚焦二段式端到端,分析PLUTO、CarPlanner、Plan-R1等经典与前沿工作 [10] - 第四章深入一段式端到端与VLA,覆盖UniAD、OccWorld、DiffusionDrive及ORION等实战案例 [11] 课程特色与目标 - 采用Just-in-Time Learning理念,帮助学员快速掌握核心技术栈并构建领域框架 [4][5] - 结合实战环节完成理论到实践闭环,包括RLHF微调及VLA算法复现 [6][13] - 学员需具备自动驾驶基础、Transformer/BEV感知等知识,课程目标为达到1年算法工程师水平 [18] - 课程进度安排为3个月,分章节解锁内容并配备VIP群答疑 [18] 行业趋势与就业需求 - 端到端自动驾驶成为智能驾驶代表方向,学术界与工业界加速布局VLA等前沿技术 [2][11] - VLA技术因上限高、难度大成为招聘热点,涉及VLM、BEV、扩散模型等多技术融合 [11] - 扩散模型在多模轨迹预测中应用广泛,DiffusionDrive等作品推动工业界落地尝试 [11][12]
字节跳动发布全球最快代码生成AI:2146倍速度碾压传统模型
搜狐财经· 2025-08-08 22:52
技术突破 - 字节跳动Seed团队与清华大学联合发布"Seed Diffusion Preview"技术 采用离散状态扩散模型进行代码生成 实现每秒2146个标记的超高生成速度 [2][3] - 该技术突破传统自回归模型的序列生成限制 允许并行处理代码不同部分 更贴近人类程序员非线性思维模式 [4][5] - 在H20 GPU上实现显著速度优势 相比Gemini Diffusion(1489标记/秒)和Mercury Coder(737-1109标记/秒)有大幅提升 [17][33] 训练方法 - 采用两阶段课程学习(TSC)方法 第一阶段80%时间进行基于掩码的训练 20%时间进行基于编辑的训练 [6] - 第二阶段使用约束顺序扩散训练 通过ELBO最大化选择最优生成路径 避免学习低效生成顺序 [7][8] - 引入在线策略学习 最小化生成轨迹长度同时确保代码质量 实现训练过程中速度持续提升 [9][10][11] 性能表现 - 在HumanEval和MBPP基准测试中分别取得85.2%和79.4%的优异成绩 [15] - 在多语言编程测试中表现突出 Go语言达到92.9% Java 67.7% C++ 72.6% Ruby 72.5% [16] - 代码编辑能力特别突出 CanItEdit测试达到54.3% 显示对现有代码的理解和改进能力 [17] 行业影响 - 可能改变软件开发经济模式 小型团队可承担大型项目 缩短开发周期降低成本 [21] - 推动开发工具和教育领域变革 从编码技能转向算法思维和系统设计等高阶能力培养 [25] - 重塑技术生态竞争格局 通过开源策略推动行业发展 催生新型开发工具和服务 [26][27] 应用前景 - 开发者可将更多精力投入创意设计和问题解决 而非基础编码工作 [23] - 企业需重新评估开发流程 代码生成加速后 需求分析和测试验证可能成为新瓶颈 [24] - 促进模块化和组件化开发 关注系统整体设计而非实现细节 [25] 技术挑战 - 需扩展到复杂任务如系统设计和性能优化 当前主要处理相对简单编程问题 [28] - 代码质量和安全性保障 需建立验证机制确保符合企业级标准 [29] - 大规模商业应用需验证在不同硬件环境和模型规模下的稳定性 [29]
图灵奖得主加持,蒙特卡洛树搜索×扩散模型杀回规划赛道|ICML 2025 Spotlight
量子位· 2025-08-01 12:23
核心观点 - 蒙特卡洛树扩散(MCTD)通过结合蒙特卡洛树搜索(MCTS)和扩散模型,解决了扩散模型在长程任务推理中缺乏可扩展性的问题,并在迷宫导航、机械臂操作等任务中表现优异,通关率高达100% [3][4][17] - Fast-MCTD通过并行MCTD和稀疏MCTD技术,将推理速度提升100倍,同时保持高性能,成为更实用的解决方案 [25][36][40] 方法创新 - **MCTD的核心机制**: - 将轨迹划分为独立子规划(如N=500划分为5个子轨迹),实现异步去噪控制 [9][11][12] - 通过MCTS的四个阶段(Selection/Expansion/Simulation/Backpropagation)动态平衡探索与利用,提升长程规划效率 [8][18] - **Fast-MCTD的优化技术**: - 并行MCTD:引入冗余感知选择(RAS)和批处理去噪,支持K个并发rollouts,提升GPU并行效率 [30][31][34] - 稀疏MCTD:通过轨迹粗化(下采样H步)减少子规划数量,降低搜索复杂度 [35] 实验结果 - **性能表现**: - 迷宫导航:MCTD在medium/large/giant地图中接近100%成功率,显著优于Diffuser等基线 [17] - 机械臂操作:MCTD-Replanning在双方块任务中将成功率从22%提升至50%,Fast-MCTD进一步将规划时间从38.8秒缩短至5.9秒 [19][39] - 视觉迷宫:Fast-MCTD比MCTD快25-60倍,且在更大迷宫中性能更优 [39] - **效率提升**:Fast-MCTD在特定任务中实现80-110倍加速,性能损失极小 [36][40] 研究背景 - 论文由KAIST博士生尹在植主导,指导老师安成镇(Sungjin Ahn)为贝叶斯推理与深度学习专家,曾师从Yoshua Bengio [41][43] - 相关论文入选ICML 2025 Spotlight,开源代码及学术主页已公开 [4][45]
最近被公司通知不续签了。。。
自动驾驶之心· 2025-07-28 21:21
自动驾驶行业现状 - 行业整体盈利挑战巨大,头部公司如百度Apollo、小马智行的Robotaxi业务面临规模化运营成本高和法规限制问题,距离稳定盈利尚远 [3] - 乘用车主机厂如特斯拉、蔚小理的智能驾驶功能(FSD、NOP/NGP等)仍处于持续投入阶段,盈利主要依靠整车销售支撑 [3] - 特定场景如港口、矿区、园区物流AGV落地相对成熟,但市场规模有限且面临成本效益考验 [4] - 高级别自动驾驶(L4)系统综合成本在大多数应用场景下仍难以显著超越人力或传统方案的成本优势 [4] 技术发展趋势 - 端到端自动驾驶成为技术趋势,需要了解BEV Transformer、模仿学习、强化学习等技术在自动驾驶中的应用 [8] - 视觉大语言模型(VLM)在自动驾驶中的应用日益广泛,包括场景理解、轨迹预测和规划控制等方向 [31][32][34] - 世界模型技术快速发展,如HERMES、DrivingGPT等统一了驾驶世界建模和规划功能 [36][37] - 扩散模型在自动驾驶视频生成、场景合成等方面取得突破,如DriveDreamer、DrivingDiffusion等 [35][40] 人才市场情况 - 与前几年投资热潮相比,行业趋于冷静,L4级别岗位总量收缩明显,竞争加剧 [5] - 社招岗位数量减少,要求更高更务实,不仅需要扎实的工程能力和领域深度,还需具备量产/落地经验 [5][6] - 规划控制等传统岗位机会减少,建议转向新能源车企自动驾驶岗位或机器人、工业自动化等领域 [8] - 技术栈转型建议:C++开发者可考虑转向嵌入式或其他行业,如AGV、机械臂等工业自动化领域 [8] 技术社区资源 - 自动驾驶之心知识星球已聚集近4000人,包含100+行业专家和30+技术学习路线 [9][12] - 社区提供四大技术方向资源:视觉大语言模型、世界模型、扩散模型和端到端自动驾驶 [15] - 与多家自动驾驶公司建立岗位内推机制,简历可直达心仪公司 [11] - 社区每周活跃度国内前20,包含学术进展、量产应用、求职招聘等全方位内容 [70][74] 数据集与评估 - 主流自动驾驶数据集包括nuScenes、Waymo Open Dataset、BDD100K等,涵盖2D/3D目标检测、语义分割、目标跟踪等任务 [28] - 语言增强的自动驾驶数据集如NuScenes-QA、Talk2Car等支持视觉问答和自然语言导航等任务 [29] - VLM评估涵盖图像分类、图像文本检索、行为识别、目标检测、语义分割等多个维度 [23][24][25][26][27]
自驾一边是大量岗位,一遍是招不到人,太魔幻了......
自动驾驶之心· 2025-07-26 10:39
自动驾驶行业现状 - 自动驾驶行业进入理性发展阶段,资本更加谨慎,公司首要目标是"活下去"和"跑通商业模式"[2] - 行业预计在未来1-3年将经历深度调整和洗牌[2] - 技术栈虽完备但距离大规模商业化落地仍有差距,实验室效果与真实路况表现存在工程鸿沟[3] 人才供需矛盾 - 行业出现"岗位虚位以待但人才难觅"现象,企业对顶尖人才和高度适配人才需求达到前所未有的高度[2][4] - 3-5年经验岗位薪资可达百万级别[2] - 求职者需具备过硬技术能力且适配前沿研究和量产方向[3] 技术社区发展 - 自动驾驶之心知识星球已成为国内最大自驾技术社区,拥有4000名成员和100+行业专家[7][9] - 社区提供30+自动驾驶技术学习路线,覆盖感知、定位、规划控制等几乎所有子方向[9][69] - 与数十家自动驾驶公司建立内推渠道,简历可直接送达[10][67] 前沿技术方向 - 视觉大语言模型(VLM)成为研究热点,涉及预训练、迁移学习、知识蒸馏等多个技术领域[15][16][17] - 世界模型在自动驾驶中的应用日益广泛,如HERMES、DriveWorld等模型实现3D场景理解和生成[34][36] - 扩散模型在自动驾驶视频生成、数据增强等方面发挥重要作用[37][43] - 端到端自动驾驶成为重要研究方向,涉及感知、预测、规划等多个环节[31][49][52] 技术应用与数据集 - 自动驾驶数据集涵盖2D/3D目标检测、语义分割、目标跟踪等多个任务[25] - 语言增强的自动驾驶系统数据集快速发展,支持自然语言导航和空间推理等高级功能[26] - 智能交通领域应用包括车辆检索、视觉问答等实际场景[27] - 自动驾驶感知技术应用于行人检测、3D目标检测等具体任务[28] 行业挑战与解决方案 - 远距离Occupancy检测效果不佳,可能由激光雷达稀疏和监督真值空洞导致[100][101] - 地下车库自动泊车通过视觉传感器和建图技术实现定位[96] - 3D目标检测研究趋于成熟,建议从BEV感知入手学习前沿算法[96]