Workflow
扩散模型
icon
搜索文档
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-09-29 16:45
端到端自动驾驶行业趋势 - 2023年是端到端量产的元年,2024年将是端到端量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要范式:一段式(如UniAD)直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 自2023年以来,一段式端到端发展迅速,衍生出基于感知、世界模型、扩散模型和VLA等多种方法,主流自动驾驶企业和车企均在发力自研量产 [3] 端到端与VLA技术核心 - 端到端与VLA涉及的核心技术栈包括BEV感知、视觉语言模型、扩散模型和强化学习等,代表了学术界和工业界最前沿的技术 [5] - 基于扩散模型输出多模轨迹是当前学术界和工业界追捧的热点,多家公司正在尝试落地 [11] - 视觉大语言模型相关的强化学习技术是重点,包括RLHF和GRPO等 [11] 课程内容与结构 - 课程涵盖二段式端到端与一段式端到端前沿算法的细致讲解,内容均为工业界和学术界的Baseline [5] - 第一章介绍端到端自动驾驶发展历史、概念起源及从模块化到端到端的演变,分析一段式、二段式及VLA范式的优缺点 [9] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,为后续章节奠定基础 [9] - 第三章聚焦二段式端到端,解析经典算法PLUTO、CVPR'25的CarPlanner及最新工作Plan-R1,并对比其与一段式端到端的优缺点 [10] - 第四章为课程精华,深入讲解基于感知、世界模型、扩散模型及VLA的一段式端到端子领域 [12] - 第五章大作业为RLHF微调实战,涵盖预训练模块和强化学习模块的搭建与实验,该技术可迁移至VLA相关算法 [13] 技术细分领域进展 - 基于世界模型的方法应用广泛,可用于场景生成、端到端及闭环仿真,是近两年热门技术方向 [14] - 基于扩散模型的方法自2023年下半年兴起,通过输出多模轨迹更好地适应自动驾驶不确定环境,代表性工作包括DiffusionDrive、Diffusion Planner和吉大的DiffE2E [14] - 基于VLA的方法是端到端自动驾驶的皇冠,上限高且难度大,业内招聘需求旺盛,代表性工作包括小米的ORION、慕尼黑工大的OpenDriveVLA及最新的ReCogDrive [14] 行业影响与人才需求 - 学习端到端与VLA自动驾驶可掌握最前沿技术栈,第二章内容是未来两年求职面试频率最高的技术关键词 [10] - 完成课程期望能达到1年左右端到端自动驾驶算法工程师水平,掌握技术框架并对BEV感知、多模态大模型等关键技术有更深刻了解 [19] - 课程面向具备自动驾驶基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念,并有一定数学和编程基础的学员 [18]
Meta刚从OpenAI挖走了清华校友宋飏
36氪· 2025-09-26 21:35
核心人事变动 - 前OpenAI高层研究员宋飏正式加盟Meta Superintelligence Labs担任研究负责人[2][3] - 宋飏将直接向MSL首席科学家赵晟佳汇报[5] - 两人背景高度契合:本科均毕业于清华,博士同在斯坦福同门,曾先后就职于OpenAI[13] 团队架构与战略方向 - 宋飏的加入巩固了MSL的“双核”格局:赵晟佳把握整体节奏,宋飏深化关键路径[16] - 宋飏研究方向聚焦扩散模型与多模态推理,其技术是生成式AI领域重要基石[29][37] - 团队战略目标是构建能理解图像、语言、音频等多种数据形式的通用模型,提升与真实世界互动的广度与深度[31] - 赵晟佳主导统一训练范式和推理堆栈,旨在打造完整AI产品体系[32] 行业人才流动趋势 - 今夏以来已有超过11位来自OpenAI、Google、Anthropic等机构的研究者加入MSL[20] - 顶级AI实验室间人员流动节奏加快,例如Aurko Roy在Meta工作不到五个月便离职加入Microsoft AI[22][24] - 项目匹配度、团队氛围和技术方向贴合度正成为人才选择的核心因素[25] - 人才选择项目的速度在加快,项目对人的要求也在提高,研究者与实验室关系呈现“双向奔赴”特点[46][47] 技术影响与产业意义 - 宋飏在OpenAI期间带领战略探索团队,专注于提升模型处理高维复杂数据的能力[30][39] - 其研究成果不止于方法创新,更擅长转化为平台能力,影响了OpenAI图像生成产品设计路径[40] - 这类研究者能直接推动从理论、数据到系统实现的完整链路,为团队补上技术纵深与工程整合的关键环节[41] - 跨模态、完整数据链路、工具集成与推理协同能力将成为AI从业者新阶段核心竞争力[48]
AnchDrive:一种新端到端自动驾驶扩散策略(上大&博世)
自动驾驶之心· 2025-09-26 15:50
端到端自动驾驶技术演进 - 端到端自动驾驶算法直接从原始传感器数据学习控制信号,绕过模块化设计复杂性,减少感知误差累积,提升系统一致性与鲁棒性 [4][12] - 早期方法依赖自车查询回归单模态轨迹,在复杂场景中易因行为多模态性导致预测失效 [6][12] - 多模态建模策略通过生成多个轨迹提案提升决策覆盖率,但固定轨迹集离散化限制模型表达灵活性 [6][13] 扩散模型在轨迹规划中的应用 - 扩散模型具备强大生成能力与自适应能力,适合多模态轨迹规划,能从高维联合分布采样并建模连续控制空间 [7][13] - 模型天然支持条件分布建模,可整合轨迹历史、地图语义、自车目标等上下文输入,提升策略一致性与情境相关性 [7][13] - 测试阶段可通过可控采样加入额外约束,无需重新训练模型 [7][13] AnchDrive框架核心创新 - 采用截断扩散策略,从混合轨迹锚点集初始化扩散过程,显著减少去噪步骤,降低计算成本与延迟 [8][15][29] - 动态锚点由多头部解码器实时生成,处理BEV场景表征、目标特征、地图特征和VLM指令四类输入,捕捉局部环境行为多样性 [27][29] - 静态锚点集从大规模人类驾驶数据预采样,提供跨场景行为先验知识,增强模型泛化能力 [8][28][29] 混合感知架构设计 - 密集感知分支构建128×128网格BEV特征图,覆盖64×64米区域,提供场景纹理与空间关系的隐式引导 [22][23] - 稀疏感知分支执行3D目标检测和在线高精地图矢量化,输出带属性边界框及矢量化地图元素,通过MLP编码生成目标与地图嵌入 [23] - 双分支协同融合隐式模式与显式几何约束,为规划提供全面可靠的环境理解基础 [21][23] 性能表现与基准对比 - 在NAVSIM v2基准测试中EPDMS达到85.5分,显著优于主流方法:较VADv2提升8.9分,较Hydra-MDP提升5.7分,较Hydra-MDP++提升4.1分 [9][15][34] - 轨迹锚点数量从VADv2的8192个大幅缩减至20个,减少比例达400倍 [34] - 在所有子分数指标上均优于DiffusionDrive基准方法,EPDMS分数提升1.2分 [34] 消融实验关键发现 - 动态锚点生成器中:BEV特征轨迹头使EPDMS提升0.5分;目标特征轨迹头显著提高无责任碰撞(NC)分数;地图特征轨迹头提升可行驶区域合规性(DAC)和行驶方向合规性(DDC)指标 [36] - 整合VLM指令后EPDMS达到最终85.5分 [36] - 2步去噪步骤在规划性能与计算效率间取得最佳平衡,更多步骤不保证性能提升且增加推理延迟 [36] 技术实现细节 - 实验基于NAVSIM数据集,标注频率2Hz,提供8摄像头360度视野和5传感器融合LiDAR点云数据 [32] - EPDMS评价指标整合乘法惩罚分数(无责任碰撞、可行驶区域合规性、行驶方向合规性、交通信号灯合规性)和加权平均分数(碰撞时间、自车进度、历史舒适性、车道保持、扩展舒适性) [32] - 模型完全端到端学习,未依赖任何手工后处理步骤 [34]
突发,Meta刚从OpenAI挖走了清华校友宋飏
36氪· 2025-09-25 19:56
人事任命核心信息 - 前OpenAI高层研究员宋飏正式加入Meta Superintelligence Labs,担任研究负责人 [1] - 宋飏将直接向MSL首席科学家赵晟佳汇报 [4] - 宋飏是扩散模型领域的核心人物,也是DALL·E 2技术路径的早期奠基者 [1][21] 团队构建与战略意义 - 赵晟佳与宋飏的组合标志着MSL从“顶级个体”迈向“协同作战”的团队形态,形成“双核”格局 [13] - 赵晟佳主导过ChatGPT、GPT-4等核心研发,宋飏则长期关注跨模态模型架构,两人在技术专长上形成互补 [13] - 宋飏的加入进一步巩固了团队组合,使科研分工更具结构感 [13] 行业人才流动趋势 - Meta的招人节奏高频,今夏以来已有超过11位来自OpenAI、Google、Anthropic等机构的研究者加入MSL [14] - 顶级AI实验室之间人员流动节奏加快,例如Aurko Roy在Meta工作不到五个月后离职加入Microsoft AI [14][15] - 项目匹配度、团队氛围和技术方向的贴合程度,正逐渐成为影响人才选择的核心因素 [17] 技术发展方向 - 宋飏的研究方向与MSL整体战略紧密贴合,多模态推理或将成为MSL的主打方向 [18] - 宋飏专注于构建能理解图像、语言、音频等多种数据形式的通用模型,以提升模型与真实世界互动的广度与深度 [18] - 赵晟佳主导统一的训练范式和推理堆栈,与宋飏的研究相结合,正加速从输入到输出的完整技术闭环成形 [18] 个人背景与能力 - 宋飏在学术界以扩散模型研究闻名,其论文《Score-Based Generative Modeling through Stochastic Differential Equations》被引用8748次 [21][22] - 他拥有丰富的工业与理论背景,曾在谷歌大脑、Uber ATG、微软研究院等机构实习 [24] - 他不仅做方法创新,也擅长将研究成果转化为平台能力,能直接推动从理论到系统实现的完整链路 [28]
从300多篇工作中,看VLA在不同场景下的应用和实现......
具身智能之心· 2025-09-25 12:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 兰州大学、中科院、新加坡国立等单位联合出品的一篇最新survey! Pure Vision Language Action (VLA) Models: A Comprehensive Survey 论文链接:https://arxiv.org/pdf/2509.19012 视觉-语言-动作(Vision Language Action, VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,同时也将视觉- 语言模型(Vision Language Models, VLMs)从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。 机器人技术长期以来一直是科学研究的重要领域。在历史发展进程中,机器人主要依赖预编程指令和设计好的控制策略来完成任务分解与执行。这些 方法通常应用于简单、重复性的任务,例如工厂 ...
深度综述 | 300+论文带你看懂:纯视觉如何将VLA推向自动驾驶和具身智能巅峰!
自动驾驶之心· 2025-09-25 07:33
文章核心观点 - 视觉-语言-动作模型代表了机器人技术从传统控制向通用机器人技术的范式转变,将视觉-语言模型从被动生成器转变为能在复杂环境中决策的主动智能体 [1] - 该综述综合了300多项最新研究,对VLA方法进行了系统分类,并探讨了其应用、关键挑战及未来发展方向 [1] - VLA模型通过整合视觉编码器、大型语言模型和强化学习的优势,旨在弥合“感知-理解-动作”的鸿沟,成为实现通用具身智能的核心路径 [16][23] VLA模型的核心范式与分类 - VLA方法被划分为五大范式:自回归模型、扩散模型、强化学习模型、混合方法及专用方法 [1][24] - 自回归模型通过Transformer架构统一多模态感知和序列动作生成,支持跨任务泛化,但存在误差累积和延迟问题 [26][39] - 扩散模型将机器人控制从确定性回归转变为概率性生成,支持从同一观测生成多种有效轨迹,但在动态环境中的轨迹稳定性仍需改进 [41][43] - 强化学习微调模型通过融合视觉-语言基础模型与RL算法,增强VLA的感知和决策能力,擅长结合人类反馈和适应新任务 [48][51] VLA模型的技术演进与关键创新 - VLA模型的发展经历了从单模态基础模型到多模态融合,再到“多模态+可执行控制”的演进路径 [16] - 关键技术创新包括模态token化、自回归动作生成、以及将视觉、语言、状态和动作统一在单一序列建模框架中 [20][30] - 代表性模型如Gato实现了异质模态的统一token化,RT-1基于13万条真实世界数据训练,RT-2融入了网络级VLM知识 [30] - 扩散模型领域的创新包括SE(3)-DiffusionFields将扩散扩展到SE(3)位姿空间,以及Dita构建的可扩展扩散Transformer [42][45] VLA模型的应用场景与机器人形态 - VLA模型已应用于多种机器人形态,包括机械臂、四足机器人、人形机器人和轮式机器人 [7] - 在自动驾驶领域,VLA模型用于轨迹生成和危险规避,CoVLA构建了包含5万条语言指令-轨迹对的大规模数据集 [55] - 专用领域适配包括GUI交互、人形全身控制以及特殊任务如魔方还原,展现了VLA的通用性 [55][57] - 人形机器人控制通过分层VLA框架实现,如LeVERB将视觉-语言处理与动力学级动作处理耦合,支持150+任务的仿真到现实迁移 [55] 数据集与仿真平台的支撑作用 - VLA模型的发展高度依赖高质量数据集和仿真平台,以解决数据稀缺和实机测试风险高的问题 [17] - 真实世界数据集如BridgeData涵盖10个环境中的71项任务,Open X-Embodiment整合了22个机器人数据集,包含160266个任务 [21][65] - 仿真平台如MuJoCo/Isaac Gym提供精确的物理仿真,CARLA面向自动驾驶提供真实城市交通场景,支持安全高效的大规模训练 [21] - 评估指标通常采用成功率、语言遵循率、L2距离和完成率等,以衡量模型的性能、鲁棒性和泛化能力 [66][68][74] VLA模型面临的挑战与未来方向 - 关键挑战包括可扩展性不足、在未知场景中的泛化性下降、实机部署的安全性风险以及仿真到现实的差距 [23][29] - 未来研究方向需解决数据局限性、推理速度、安全性以及长尾场景覆盖不足等问题,以加速通用机器人技术的发展 [7][23] - 效率优化和轻量化设计成为趋势,如MoLe-VLA通过混合专家路由降低40%计算成本,BitVLA采用1位量化将内存占用降至30% [36][55] - 安全机制和可解释性研究受到重视,SafeVLA引入安全评论网络和约束策略优化框架,以降低开放环境中的风险事件 [51][57]
打算招聘几位大佬共创平台(4D标注/世界模型/VLA等方向)
自动驾驶之心· 2025-09-24 07:32
QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐
机器之心· 2025-09-22 15:26
研究背景与挑战 - 扩散模型与流匹配模型已成为视觉生成主流方案 但仅靠预训练无法保证与人类意图完全对齐 [5] - 人类反馈强化学习(RLHF)被引入以优化生成模型 使其输出更贴近人类偏好 [6] - 群体相对策略优化(GRPO)在应用中面临两大瓶颈: 采样复杂度达O(N×T)导致低效性 以及稀疏奖励导致训练波动大和收敛不稳 [8] BranchGRPO方法创新 - 通过树形分叉结构在扩散过程中实现多轨迹共享前缀 在中间步骤分裂 大幅减少冗余采样 [11] - 采用奖励融合与逐层归因机制 将叶子节点奖励自底向上传递并在每一深度标准化 形成逐步稠密的优势信号 [14] - 设计宽度剪枝和深度剪枝两种策略 避免树形结构带来的指数级成本 [14] 性能表现:图像对齐 - 迭代时间显著缩短: DanceGRPO需698秒 BranchGRPO仅493秒 剪枝版314秒 Mix变体148秒(相对加速近4.7倍) [15] - 对齐效果更优: HPS-v2.1得分0.363–0.369 稳定高于DanceGRPO的0.360 ImageReward得分1.319为全表最佳 [15] - Mix变体在极致加速的同时保持与原始BranchGRPO相当的对齐效果和训练稳定性 [16] 性能表现:视频生成 - 生成质量提升: 视频帧更锐利 细节更丰富 角色和物体在时间维度上保持一致 [18] - 训练效率翻倍: DanceGRPO每次迭代需近20分钟 BranchGRPO仅需约8分钟 [19] 扩展性与多样性 - 多样性保持良好: 分叉未削弱样本分布 MMD²≈0.019 几乎与顺序采样一致 [24] - 扩展性优异: 在81样本规模下 DanceGRPO迭代需2400秒 BranchGRPO仅需680秒 [27] - 性能随分支规模扩大持续提升 使大规模对齐训练变得可行 [27] 应用前景 - 未来可通过引入自适应分裂/剪枝策略 拓展至多模态与更大规模生成任务 [30] - 有望成为扩散/流模型RLHF的核心方法 为高效稳定的人类偏好对齐提供新范式 [30]
打算招聘几位大佬共创平台(世界模型/VLA等方向)
自动驾驶之心· 2025-09-21 14:59
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 创业项目合作与推荐; 联系我们 岗位要求 QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 丰厚的现金激励; 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
上交严骏驰团队:近一年顶会顶刊硬核成果盘点
自动驾驶之心· 2025-09-19 07:33
文章核心观点 - 上海交通大学严骏驰教授团队在CVPR、ICLR、NeurIPS等顶级会议上发表了一系列开创性研究,代表了人工智能领域的硬核突破 [2] - 团队研究工作聚焦于AI技术的核心挑战,包括提升机器人复杂任务能力、使AI在工业决策中超越人类专家、为黑盒模型建立坚实理论根基 [2] - 这些研究成果展示了未来AI研究的三大关键趋势:理论与实践的深度融合、AI对传统科学计算的颠覆性重塑、以及迈向更鲁棒高效自主的智能系统 [32] - 团队工作具有高度可复现性和可落地性,有望演变为更聪明的机器人、更强大的设计工具和更高效的商业解决方案 [32] CVPR 2024研究成果 - 提出基于网格的神经场模型系统性理论框架,引入网格切线核概念分析模型的近似和泛化行为 [4] - 开发MulFAGrid模型,通过联合优化核参数和网格特征的自适应学习方案,在欠拟合和过拟合极端间取得平衡 [5] - 在2D图像拟合任务中达到56.19 PSNR,在3D有符号距离场重建任务中达到0.9995 IoU和4.51法向角误差,在NeRF基准测试中PSNR高达30.12 [5] ICLR 2025研究成果 - 提出CR2PQ连续相对旋转位置查询方法,解决密集视觉对比学习中跨视图像素对应问题 [7] - 在COCO数据集上,仅用40个预训练epoch就比SOTA方法获得10.4% mAP^bb和7.9% mAP^mk的显著提升 [7] - 开发BTBS-LNS二进制紧缩分支搜索方法,在MIPLIB2017基准测试中比Gurobi提供10%更好的原始间隙 [10][11] - 提出结构化宇宙图学习方法结合异常值OOD检测,在Pascal VOC和Willow Object数据集上持续优于最先进方法 [12][13] SIGKDD 2025研究成果 - 提出BiQAP神经双层优化框架,通过修改输入实例挖掘深度网络在纯数值二次分配问题上的潜力 [15] - 内层优化使用熵正则化求解修改后的实例,外层优化处理原始QAP的二次目标函数 [15] NeurIPS 2024研究成果 - 提出Fast T2T优化一致性方法,实现扩散模型在组合优化中的快速单步求解,仅用一步生成和一步梯度搜索就超越需要数百步的SOTA扩散方法 [16][17] - 开发CLOVER闭环视觉运动控制框架,在CALVIN基准上比开环方法提升8%,实际机器人长时域操作任务完成长度提升91% [19][20] - 提出AdaptiveDiffusion无训练自适应扩散方法,通过有界差分近似策略实现2-5倍加速而无质量降低 [23][24] TPAMI 2024研究成果 - 提出EasyDGL易用流水线,实现连续时间动态图学习中编码、训练和解释的统一框架 [29] - 包含时间点过程调制的注意力架构编码模块、原则化损失训练模块和图傅里叶域扰动分析解释模块 [29] - 在公共基准上显示优越性能,能有效量化模型从演化图数据中学习的频率内容的预测能力 [30]