扩散模型

搜索文档
端到端盛行的当下,轨迹预测这个方向还有研究价值吗?
自动驾驶之心· 2025-08-12 16:05
⼀、 端到端盛行的当下,轨迹预测这个方向还有研究价值吗? 最近有同学后台问我们,现在都是搞端到端了,前面的轨迹预测和规划控制还有啥研究的价值吗?端到端真的 上车的并不多,很多依然沿用分层方案,其中轨迹预测作为后半段的核心算法,依然是许多公司和机构研究的 热点。包括联合轨迹预测和目标轨迹预测。相关的会议和期刊依然有较大量的工作产出。 自动驾驶之心针对目前比较火的基于扩散模型的多智能体轨迹预测方法研究展开了首个1v6小班课!本课题聚 焦于"基于扩散模型的多智能体轨迹预测方法"。多智能体轨迹预测旨在根据多个交互主体的历史轨迹,预测其 未来运动轨迹,这在自动驾驶、智能监控和机器人导航等场景中至关重要。然而,由于人的行为具有不确定性 和多模态性,预测任务十分困难。传统方法通常依赖循环神经网络、卷积网络或图神经网络建模社会交互,而 生成模型(如GAN和CVAE)虽然可以模拟多模态分布,但效率不高。 扩散模型是一类通过逐步去噪实现复杂分布生成的新型模型,近年来在图像生成等领域取得了重大突破。研究 者发现将扩散模型应用于轨迹预测可以显著提升多模态建模能力。例如,LeapfrogDiffusionModel(LED)采 用可训 ...
基于扩散模型的多智能体轨迹预测方法1v6小班课来了!
自动驾驶之心· 2025-08-11 13:45
⼀、课题简介⭐ 基于扩散模型的多智能体轨迹预测方法研究来啦!本课题聚焦于"基于扩散模型的多智能体轨迹预测方法"。多 智能体轨迹预测旨在根据多个交互主体的历史轨迹,预测其未来运动轨迹,这在自动驾驶、智能监控和机器人 导航等场景中至关重要。然而,由于人的行为具有不确定性和多模态性,预测任务十分困难。传统方法通常依 赖循环神经网络、卷积网络或图神经网络建模社会交互,而生成模型(如GAN和CVAE)虽然可以模拟多模态 分布,但效率不高。 扩散模型是一类通过逐步去噪实现复杂分布生成的新型模型,近年来在图像生成等领域取得了重大突破。研究 者发现将扩散模型应用于轨迹预测可以显著提升多模态建模能力。例如,LeapfrogDiffusionModel(LED)采 用可训练的"跳跃"初始化器,减少去噪步骤并实现实时预测,在NBA/NFL/SDD/ETHUCY等数据集上显著提升 精度并加速了19–30倍。MixedGaussianFlow(MGF)通过构建混合高斯先验来更好地匹配未来轨迹的多峰分 布,在UCY/ETH和SDD数据集上达到了最先进性能。此外,Pattern Memory-based Diffusion Model ( ...
即将开课!端到端与VLA自动驾驶小班课来啦(扩散模型/VLA等)
自动驾驶之心· 2025-08-11 07:32
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向,自UniAD获得CVPR Best Paper后引发国内智驾军备竞赛 [2] - 2024年理想汽车宣布E2E+VLM双系统架构量产,技术通过传感器数据直接输出规划或控制信息,避免模块化方法误差累积 [2] - BEV感知打破模块化壁垒,UniAD统一感知和规划任务,推动端到端技术进入新阶段 [2] - 当前技术需掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等跨领域知识 [3] 技术课程核心内容 - 课程涵盖二段式端到端(PLUTO)、一段式端到端(UniAD)、基于世界模型(OccWorld)、基于扩散模型(DiffusionDrive)及VLA方向 [7] - 第一章解析端到端发展历史及模块化到端到端的演变,对比一段式、二段式、VLA范式优缺点 [9] - 第二章重点讲解背景知识,包括VLA涉及的大语言模型、扩散模型、强化学习及BEV感知 [9][12] - 第三章聚焦二段式端到端,分析PLUTO、CarPlanner、Plan-R1等经典与前沿工作 [10] - 第四章深入一段式端到端与VLA,覆盖UniAD、OccWorld、DiffusionDrive及ORION等实战案例 [11] 课程特色与目标 - 采用Just-in-Time Learning理念,帮助学员快速掌握核心技术栈并构建领域框架 [4][5] - 结合实战环节完成理论到实践闭环,包括RLHF微调及VLA算法复现 [6][13] - 学员需具备自动驾驶基础、Transformer/BEV感知等知识,课程目标为达到1年算法工程师水平 [18] - 课程进度安排为3个月,分章节解锁内容并配备VIP群答疑 [18] 行业趋势与就业需求 - 端到端自动驾驶成为智能驾驶代表方向,学术界与工业界加速布局VLA等前沿技术 [2][11] - VLA技术因上限高、难度大成为招聘热点,涉及VLM、BEV、扩散模型等多技术融合 [11] - 扩散模型在多模轨迹预测中应用广泛,DiffusionDrive等作品推动工业界落地尝试 [11][12]
字节跳动发布全球最快代码生成AI:2146倍速度碾压传统模型
搜狐财经· 2025-08-08 22:52
技术突破 - 字节跳动Seed团队与清华大学联合发布"Seed Diffusion Preview"技术 采用离散状态扩散模型进行代码生成 实现每秒2146个标记的超高生成速度 [2][3] - 该技术突破传统自回归模型的序列生成限制 允许并行处理代码不同部分 更贴近人类程序员非线性思维模式 [4][5] - 在H20 GPU上实现显著速度优势 相比Gemini Diffusion(1489标记/秒)和Mercury Coder(737-1109标记/秒)有大幅提升 [17][33] 训练方法 - 采用两阶段课程学习(TSC)方法 第一阶段80%时间进行基于掩码的训练 20%时间进行基于编辑的训练 [6] - 第二阶段使用约束顺序扩散训练 通过ELBO最大化选择最优生成路径 避免学习低效生成顺序 [7][8] - 引入在线策略学习 最小化生成轨迹长度同时确保代码质量 实现训练过程中速度持续提升 [9][10][11] 性能表现 - 在HumanEval和MBPP基准测试中分别取得85.2%和79.4%的优异成绩 [15] - 在多语言编程测试中表现突出 Go语言达到92.9% Java 67.7% C++ 72.6% Ruby 72.5% [16] - 代码编辑能力特别突出 CanItEdit测试达到54.3% 显示对现有代码的理解和改进能力 [17] 行业影响 - 可能改变软件开发经济模式 小型团队可承担大型项目 缩短开发周期降低成本 [21] - 推动开发工具和教育领域变革 从编码技能转向算法思维和系统设计等高阶能力培养 [25] - 重塑技术生态竞争格局 通过开源策略推动行业发展 催生新型开发工具和服务 [26][27] 应用前景 - 开发者可将更多精力投入创意设计和问题解决 而非基础编码工作 [23] - 企业需重新评估开发流程 代码生成加速后 需求分析和测试验证可能成为新瓶颈 [24] - 促进模块化和组件化开发 关注系统整体设计而非实现细节 [25] 技术挑战 - 需扩展到复杂任务如系统设计和性能优化 当前主要处理相对简单编程问题 [28] - 代码质量和安全性保障 需建立验证机制确保符合企业级标准 [29] - 大规模商业应用需验证在不同硬件环境和模型规模下的稳定性 [29]
图灵奖得主加持,蒙特卡洛树搜索×扩散模型杀回规划赛道|ICML 2025 Spotlight
量子位· 2025-08-01 12:23
核心观点 - 蒙特卡洛树扩散(MCTD)通过结合蒙特卡洛树搜索(MCTS)和扩散模型,解决了扩散模型在长程任务推理中缺乏可扩展性的问题,并在迷宫导航、机械臂操作等任务中表现优异,通关率高达100% [3][4][17] - Fast-MCTD通过并行MCTD和稀疏MCTD技术,将推理速度提升100倍,同时保持高性能,成为更实用的解决方案 [25][36][40] 方法创新 - **MCTD的核心机制**: - 将轨迹划分为独立子规划(如N=500划分为5个子轨迹),实现异步去噪控制 [9][11][12] - 通过MCTS的四个阶段(Selection/Expansion/Simulation/Backpropagation)动态平衡探索与利用,提升长程规划效率 [8][18] - **Fast-MCTD的优化技术**: - 并行MCTD:引入冗余感知选择(RAS)和批处理去噪,支持K个并发rollouts,提升GPU并行效率 [30][31][34] - 稀疏MCTD:通过轨迹粗化(下采样H步)减少子规划数量,降低搜索复杂度 [35] 实验结果 - **性能表现**: - 迷宫导航:MCTD在medium/large/giant地图中接近100%成功率,显著优于Diffuser等基线 [17] - 机械臂操作:MCTD-Replanning在双方块任务中将成功率从22%提升至50%,Fast-MCTD进一步将规划时间从38.8秒缩短至5.9秒 [19][39] - 视觉迷宫:Fast-MCTD比MCTD快25-60倍,且在更大迷宫中性能更优 [39] - **效率提升**:Fast-MCTD在特定任务中实现80-110倍加速,性能损失极小 [36][40] 研究背景 - 论文由KAIST博士生尹在植主导,指导老师安成镇(Sungjin Ahn)为贝叶斯推理与深度学习专家,曾师从Yoshua Bengio [41][43] - 相关论文入选ICML 2025 Spotlight,开源代码及学术主页已公开 [4][45]
最近被公司通知不续签了。。。
自动驾驶之心· 2025-07-28 21:21
自动驾驶行业现状 - 行业整体盈利挑战巨大,头部公司如百度Apollo、小马智行的Robotaxi业务面临规模化运营成本高和法规限制问题,距离稳定盈利尚远 [3] - 乘用车主机厂如特斯拉、蔚小理的智能驾驶功能(FSD、NOP/NGP等)仍处于持续投入阶段,盈利主要依靠整车销售支撑 [3] - 特定场景如港口、矿区、园区物流AGV落地相对成熟,但市场规模有限且面临成本效益考验 [4] - 高级别自动驾驶(L4)系统综合成本在大多数应用场景下仍难以显著超越人力或传统方案的成本优势 [4] 技术发展趋势 - 端到端自动驾驶成为技术趋势,需要了解BEV Transformer、模仿学习、强化学习等技术在自动驾驶中的应用 [8] - 视觉大语言模型(VLM)在自动驾驶中的应用日益广泛,包括场景理解、轨迹预测和规划控制等方向 [31][32][34] - 世界模型技术快速发展,如HERMES、DrivingGPT等统一了驾驶世界建模和规划功能 [36][37] - 扩散模型在自动驾驶视频生成、场景合成等方面取得突破,如DriveDreamer、DrivingDiffusion等 [35][40] 人才市场情况 - 与前几年投资热潮相比,行业趋于冷静,L4级别岗位总量收缩明显,竞争加剧 [5] - 社招岗位数量减少,要求更高更务实,不仅需要扎实的工程能力和领域深度,还需具备量产/落地经验 [5][6] - 规划控制等传统岗位机会减少,建议转向新能源车企自动驾驶岗位或机器人、工业自动化等领域 [8] - 技术栈转型建议:C++开发者可考虑转向嵌入式或其他行业,如AGV、机械臂等工业自动化领域 [8] 技术社区资源 - 自动驾驶之心知识星球已聚集近4000人,包含100+行业专家和30+技术学习路线 [9][12] - 社区提供四大技术方向资源:视觉大语言模型、世界模型、扩散模型和端到端自动驾驶 [15] - 与多家自动驾驶公司建立岗位内推机制,简历可直达心仪公司 [11] - 社区每周活跃度国内前20,包含学术进展、量产应用、求职招聘等全方位内容 [70][74] 数据集与评估 - 主流自动驾驶数据集包括nuScenes、Waymo Open Dataset、BDD100K等,涵盖2D/3D目标检测、语义分割、目标跟踪等任务 [28] - 语言增强的自动驾驶数据集如NuScenes-QA、Talk2Car等支持视觉问答和自然语言导航等任务 [29] - VLM评估涵盖图像分类、图像文本检索、行为识别、目标检测、语义分割等多个维度 [23][24][25][26][27]
自驾一边是大量岗位,一遍是招不到人,太魔幻了......
自动驾驶之心· 2025-07-26 10:39
自动驾驶行业现状 - 自动驾驶行业进入理性发展阶段,资本更加谨慎,公司首要目标是"活下去"和"跑通商业模式"[2] - 行业预计在未来1-3年将经历深度调整和洗牌[2] - 技术栈虽完备但距离大规模商业化落地仍有差距,实验室效果与真实路况表现存在工程鸿沟[3] 人才供需矛盾 - 行业出现"岗位虚位以待但人才难觅"现象,企业对顶尖人才和高度适配人才需求达到前所未有的高度[2][4] - 3-5年经验岗位薪资可达百万级别[2] - 求职者需具备过硬技术能力且适配前沿研究和量产方向[3] 技术社区发展 - 自动驾驶之心知识星球已成为国内最大自驾技术社区,拥有4000名成员和100+行业专家[7][9] - 社区提供30+自动驾驶技术学习路线,覆盖感知、定位、规划控制等几乎所有子方向[9][69] - 与数十家自动驾驶公司建立内推渠道,简历可直接送达[10][67] 前沿技术方向 - 视觉大语言模型(VLM)成为研究热点,涉及预训练、迁移学习、知识蒸馏等多个技术领域[15][16][17] - 世界模型在自动驾驶中的应用日益广泛,如HERMES、DriveWorld等模型实现3D场景理解和生成[34][36] - 扩散模型在自动驾驶视频生成、数据增强等方面发挥重要作用[37][43] - 端到端自动驾驶成为重要研究方向,涉及感知、预测、规划等多个环节[31][49][52] 技术应用与数据集 - 自动驾驶数据集涵盖2D/3D目标检测、语义分割、目标跟踪等多个任务[25] - 语言增强的自动驾驶系统数据集快速发展,支持自然语言导航和空间推理等高级功能[26] - 智能交通领域应用包括车辆检索、视觉问答等实际场景[27] - 自动驾驶感知技术应用于行人检测、3D目标检测等具体任务[28] 行业挑战与解决方案 - 远距离Occupancy检测效果不佳,可能由激光雷达稀疏和监督真值空洞导致[100][101] - 地下车库自动泊车通过视觉传感器和建图技术实现定位[96] - 3D目标检测研究趋于成熟,建议从BEV感知入手学习前沿算法[96]
一起做些有意思的事情!自动驾驶之心还缺几位合伙人
自动驾驶之心· 2025-07-23 10:12
业务合伙人招募 - 公司计划向国内外招募10位优秀合伙人(个人+企业)负责自动驾驶相关项目对接、课程研发、论文辅导、硬件研发、产品代理 [2] - 主要招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端、具身智能、AI Agent、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理、SLAM等 [2] - 岗位要求QS200以内高校硕士及以上学历,手握顶会论文者优先 [2] 合伙人待遇 - 提供自动驾驶资源共享(求职、读博、出国留学推荐等) [3] - 提供丰厚的现金激励 [3] - 提供创业项目合作与推荐机会 [3] 联系方式 - 咨询需添加微信wenyirumo并备注"机构/公司+自动驾驶合作咨询" [3]
NVIDIA最新!GraspGen:基于扩散模型的六自由度抓取生成框架
具身智能之心· 2025-07-21 16:42
核心观点 - GraspGen是一个针对机器人6自由度抓取泛化能力不足问题提出的创新框架,通过将抓取生成建模为迭代扩散过程,结合DiffusionTransformer架构和高效判别器,显著提升了抓取生成能力和适应性 [2] - 该框架采用"生成器上训练"策略大幅提升判别器性能,并通过新发布的大规模模拟数据集(含5300万抓取)实现对不同物体和夹具的适配 [2][9] - 在模拟和真实机器人实验中,GraspGen全面超越基线方法,在单物体场景AUC超过基线48%,在clutter场景任务成功率超过Contact-GraspNet 16.9% [10][13] - 真实机器人实验中整体成功率81.3%,远超M2T2(28%)和AnyGrasp(17.6%),尤其在复杂场景优势明显 [19] 核心方法 - 扩散生成器:将6自由度抓取生成建模为SE(3)空间中的扩散过程,采用DDPM模型计算更快、实现更简单 [4] - 平移归一化:通过数据集统计计算归一化系数,避免人工设置或网格搜索的低效 [4] - 对象编码:采用PointTransformerV3作为骨干网络,相比PointNet++减少5.3mm平移误差,提升4%召回率 [4] - 扩散网络:通过10步去噪生成抓取(远少于图像扩散的数百步),训练损失为预测噪声与真实噪声的L2损失 [5] 判别器设计 - 高效评估:复用生成器的对象编码器,内存使用减少21倍 [7] - 生成器上训练:用生成器生成约7K物体×2K抓取/物体的数据集训练判别器,使其AUC达0.947,显著高于仅用离线数据的0.886 [7][16] 模拟数据集 - 覆盖范围:包含三种夹具(每种约1700万抓取)和36366个网格模型 [11] - 生成方式:每个物体采样2K抓取姿态,通过摇晃测试判断成功 [11] 实验结果 - 单物体场景:在ACRONYM数据集上精度-覆盖率曲线AUC超过基线48% [10] - clutter场景:在100个场景×60任务中,任务成功率和抓取成功率均为最优 [13] - 遮挡鲁棒性:混合训练使模型在完整点云和单视图点云输入下均保持高性能 [14] - 多夹具泛化:在Robotiq-2f-140夹具上AUC达0.68873,远超M2T2的0.24265 [17] 局限 - 依赖深度传感和实例分割质量,对立方体物体表现较差 [21] - 训练需约3K GPU小时(NVIDIA V100),计算成本较高 [21]
面试了很多端到端候选人,还是有很多人搞不清楚。。。
自动驾驶之心· 2025-07-20 16:36
端到端自动驾驶技术概述 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 是当前薪资最高的算法岗位之一 3-5年经验可冲击百万年薪 [2] - 核心优势在于直接从传感器输入到车辆规划/控制信息的直接建模 避免了传统模块化方法的误差累积 BEV感知技术实现了模块间的统一视角 [2] - UniAD模型统一了感知和规划任务 标志着端到端时代的来临 但并非最终解决方案 后续涌现出多种技术流派 [2][4] 主要技术流派 - **二段式端到端**:以PLUTO为代表 专注于用模型实现自车规划 [4] - **一段式端到端**: - 基于感知的方法:以UniAD为代表持续发展 [4] - 基于世界模型的方法:以OccWorld为代表开创新流派 [4] - 基于扩散模型的方法:以DiffusionDrive为代表实现多模轨迹预测 [4] - **VLA方向**:大模型时代下的端到端新方向 结合视觉语言模型技术 [4][22] 行业应用与人才需求 - VLA/VLM大模型算法专家岗位薪资达40-70K*15薪 博士应届生可达90-120K*16薪 [9] - 技术岗位覆盖感知算法、模型量化部署等多方向 实习岗位日薪220-400元 [9] - 主机厂已开展端到端算法预研和量产交付 形成完整技术落地闭环 [25] 技术发展挑战 - 需同时掌握多模态大模型、BEV感知、强化学习、扩散模型等跨领域知识 [14] - 论文数量繁多且知识碎片化 缺乏系统性学习框架和实战指导 [14] - 高质量文档稀缺 提高了技术入门门槛 [14] 课程体系设计 - **知识框架**:覆盖BEV感知、扩散模型理论、强化学习与RLHF等核心技术栈 [6][23] - **案例研究**: - 二段式端到端解析PLUTO、CarPlanner等经典算法 [21] - 一段式端到端深入UniAD、OccLLaMA等前沿工作 [22] - **实战环节**: - 扩散模型轨迹预测实战Diffusion Planner [22] - VLA方向实战小米ORION开源框架 [22] - 大作业RLHF微调实现技术迁移应用 [24] 技术发展趋势 - 世界模型应用扩展至场景生成、闭环仿真等多场景 成为近年研究热点 [22] - 扩散模型与VLM结合推动多模轨迹预测技术落地 [22] - VLA被视为端到端自动驾驶的"皇冠" 工业界招聘需求旺盛 [22]