Workflow
自动驾驶之心
icon
搜索文档
深扒PI*0.6迭代式强化学习来源:VLA+在线RL实现具身进化
自动驾驶之心· 2025-12-13 10:04
文章核心观点 - 视觉-语言-动作模型与在线强化学习的结合已成为具身智能领域极具前景的研究方向,能够使机器人通过自我探索实现能力进化,超越单纯模仿学习的局限 [3][8] - 星动纪元提出的iRe-VLA方法通过“分而治之,动静结合”的两阶段循环迭代流程,率先突破了VLA模型应用强化学习的困境,其工作被Physical Intelligence的π*0.6研究所引用,代表了该方向的前沿进展 [3][16][17][22] - iRe-VLA方法在仿真与真实世界实验中均展现出显著优势,包括训练稳定性高、能有效学习新任务并提升泛化能力,同时通过合理的算力分配兼顾了经济性与实用性 [44][46][48][57][63] 一、VLA+RL的重要性与难点 - **重要性**:仅靠模仿学习无法应对未见情况或数据不完美,机器人难以达到鲁棒、持久工作;在线强化学习允许智能体通过试错发现更优解,是实现能力突破的关键 [8] - **应用难点**: - **环境差异**:物理世界任务周期长、奖励稀疏,学习困难 [21] - **模型稳定性**:直接对数十亿参数的VLA模型进行在线强化学习易导致灾难性遗忘或训练崩溃 [21] - **算力负担**:对大规模模型进行全量梯度更新超出本地机器人控制器的算力极限 [21] 二、行业解决方案与iRe-VLA的创新 - **行业解决方案类型**: - **外挂式干预**:如V-GPS、DSRL,通过外部价值函数或噪声引导冻结的VLA,但模型本身未发生质变 [22] - **暴力美学**:如VLAC,直接用PPO等算法全量微调VLA,易导致模型坍塌且算力要求高 [22] - **探索到内化的循环**:以iRe-VLA为代表,利用监督微化将强化学习探索出的高价值行为内化为模型的原生能力 [15][22] - **iRe-VLA模型架构**:模型由负责理解与决策的VLM主干(大脑)和负责输出控制信号的轻量级Action Head(四肢)组成,并使用LoRA技术提高微调效率 [19][20] - **核心两阶段循环流程**: - **第一阶段(在线强化学习-探索)**:冻结VLM主干参数,仅训练轻量级的Action Head和Critic Head,使机器人能在本地(如单张4090显卡)稳定探索并发现成功轨迹 [25][29][31] - **第二阶段(监督学习-内化)**:解冻VLM主干,对整个模型进行全参数微调,训练数据混合了新的成功轨迹与原始专家数据,此阶段通常在云端服务器进行,以将新技能固化并防止遗忘旧技能 [32][37][39] 三、实验结果与分析 - **训练稳定性**:直接使用PPO微调VLA会导致成功率曲线剧烈震荡甚至性能下降,而iRe-VLA的曲线稳步上升,证明了分阶段冻结参数策略对稳定训练至关重要 [46] - **仿真环境性能**: - 在MetaWorld基准测试中,iRe-VLA在多项任务上成功率显著超越SFT和PPO-Replay方法,例如将Button-Press-new任务成功率从56%提升至100%,在未见的10个任务上成功率从51%提升至80% [48][50] - 在Franka Kitchen环境中,iRe-VLA同样表现优异,例如将Slide-door-open任务成功率从86%提升至99%,将Left-door-open任务成功率从43%提升至83% [50] - **真实世界性能**: - 在抓取未见物体(如茄子、胡萝卜)的任务中,仅靠专家数据微调的模型初始成功率约为35%,经过iRe-VLA在线学习后,抓取成功率提升至80% [54][57] - 模型展现出泛化能力,抓取完全未参与训练的第三类物体时,成功率也从37%提升至61% [57] - **消融实验**:证明第二阶段解冻VLM主干是必要的,否则模型性能提升会遇到瓶颈,解冻能利用大模型的深层特征表示能力来掌握复杂技能并提升泛化性 [56][58] 四、结论与意义 - **方法优势**: - **稳定性**:解决了大模型直接进行强化学习容易训练崩溃的问题 [63] - **经济性**:巧妙分配算力,本地进行轻量级探索,云端负责重量级消化,符合实际部署场景 [63] - **持续学习**:使机器人能在不遗忘旧技能的前提下,通过自我探索不断掌握新物体和新任务的操作技能 [63] - **行业前景**:iRe-VLA与π*0.6等研究揭示了VLA在线强化学习技术的发展前景,未来研究方向包括高效探索、稀疏奖励下的学习以及大规模VLA的稳定可扩展RL算法等 [62]
基于Qwen3-VL的自动驾驶场景实测......
自动驾驶之心· 2025-12-12 15:35
文章核心观点 - 阿里通义最新的Qwen3-VL多模态大模型在自动驾驶场景的实测中表现卓越,展现出强大的通用视觉语言基础能力,能够在未经专门自动驾驶指令微调的情况下,对复杂交通场景做出合理、连贯且带有安全意识的判断,这为通用视觉语言模型在垂直领域落地提供了更多可能性 [2][82] 场景理解和空间推理 - 模型能够准确描述图片中的场景,包括天气状况、道路类型以及是否存在行人或车辆等基础感知任务 [7][8][9][10][14][16][17] - 模型具备深度的空间推理能力,能够判断距离自车最近的车辆、前方车辆的移动状态、旁边车辆的变道意图、前方车辆的数量与位置、自车所在车道以及车道线数量 [20][21][24] - 模型能够识别交通信号灯及其颜色 [25] 行为决策和因果推理 - 模型能够基于当前情况,为自车提供加速、减速或保持速度的行为决策建议 [28] - 模型能够识别图像中最大的潜在危险 [29] - 模型能够准确识别并解释多个交通标志(如黄色弯道警告标志、绿色ETC指示标志、F200里程牌),并说明相应的应对措施,强调安全驾驶原则 [30][31][32][33] - 模型能够判断在特定场景下是否应该变道并解释原因 [35] - 模型能够根据交通参与者的动态状态、距离和潜在风险,对其危险程度进行从高到低的排序 [37][39][40][41][42] - 模型能够解释旁边车辆“闪灯”的现象,指出其实际是夜间正常开启的大灯,并分析了可能的误解来源 [43][44][45][46] - 模型能够针对安全超车提供详细指导,但在实测的特定夜间场景中,基于对向来车、能见度低、道路条件等因素,强烈不建议尝试超车 [47][48][49] 时序理解与动态变化 - 模型能够分析多帧图像序列,判断前方车辆的相对速度是在增加还是减少,并结合交通场景(如出现拥堵排队)进行逻辑推断 [51][52][53][54][55][56] - 模型能够解释交通流从畅通到拥堵的演变过程,阐述其典型阶段,并分析最初可能引发拥堵的局部扰动事件(如前方车辆突发减速、道路瓶颈、外部干扰) [57][58][59][60] - 基于对拥堵场景的分析,模型明确指出在车辆紧密排队、道路条件禁止的情况下,超车极不安全,并列举了核心风险点 [61][62][63][64][65][66] - 在动态场景中,模型能判断哪个交通参与者的行为最危险 [69] - 模型能够模拟复杂突发事件的演变过程,例如旁边停靠车辆突然爆胎后,在隧道场景中可能引发的一系列连锁反应 [71][72][73][74][75] 测试亮点与总结 - Qwen3-VL展现了精准的场景理解、深度的空间推理、动态行为预测、突出的安全意识以及多帧时序理解等多项能力 [81] - 该模型的表现显示出,未来基于通用大模型的自动驾驶系统可能通过“常识推理+多模态理解”的方式,实现更高效、泛化和可信的驾驶决策,减少对海量场景数据反复打磨的依赖 [82]
自动驾驶之心论文辅导推出了(端到端/OCC/BEV/VLA等方向)
自动驾驶之心· 2025-12-12 15:35
文章核心观点 - 公众号“自动驾驶之心”推出了一项专业的论文辅导服务,旨在帮助研究者在自动驾驶及相关前沿技术领域发表高水平学术论文 [1][2] 服务内容与方向 - 论文辅导服务覆盖自动驾驶近30个研究方向,包括端到端、VLA、世界模型、强化学习、3D目标检测、多传感器融合、3DGS、BEV感知、Occupancy Network、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、Flow matching、点云感知、毫米波雷达、单目感知、车道线/在线高精地图等 [2] - 提供的具体服务内容包括论文选题、论文全流程指导、实验指导以及申博指导 [6] - 服务范围不仅限于学术论文,也涵盖毕设论文、申博以及比赛等 [8] 服务成果与目标期刊 - 该辅导服务已成功帮助多篇论文被CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等顶级会议和期刊收录 [6] - 辅导目标覆盖多种级别的学术出版物,包括自动驾驶顶会/顶刊、CCF-A/B/C类会议期刊、SCI一区至四区、中科院1区至4区以及EI/中文核心期刊 [7] 服务咨询与获取 - 对有论文发表需求或研究方向咨询的用户,可通过指定微信(paperguidance)联系获取服务 [3][8]
正式开课!7个Project搞懂端到端落地现状
自动驾驶之心· 2025-12-12 11:02
行业招聘需求与技术趋势变化 - 自动驾驶行业招聘需求正发生变化,两年前热门的感知岗位需求进一步收缩 [2] - 当前行业需求较高的技术方向集中在端到端、视觉语言动作模型和世界模型等领域 [2] - 头部玩家已验证端到端技术路径可行,其他车企正跟进投入人力和资源,从模型、场景、数据优化到下游规划兜底进行布局 [2] - 市场面临合格候选人供给不足的挑战,候选人往往只精通部分技术栈,而相关岗位要求广泛的技术能力 [2] - 具体的量产经验,如导航信息引入、强化学习调优、轨迹建模及优化,是实际落地中的关键痛点和门道 [2] 课程核心定位与内容设计 - 课程名称为《面向量产的端到端实战小班课》,核心重点是聚焦量产应用 [2] - 课程设计历时三个月,包含七个实战项目,从实战到落地层层展开 [2] - 课程核心算法覆盖一段式端到端、两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型结合强化学习、自回归结合强化学习、时空联合规划等 [2] - 课程最终会分享实际的量产经验,目标面向就业与直接落地 [2] - 课程采用小班制,目前仅剩20个招生名额 [2][4] 端到端技术架构演进与核心模块 - 在端到端时代,感知任务的合并与规控算法的学习化已成为绝对主流 [7] - 如何更高效合并感知任务及设计规控的学习化模块是各大公司的核心必备技能 [7] - 两段式端到端框架涉及感知与规划控制的建模及信息传递方式,有其特定优缺点 [8] - 一段式端到端框架可实现信息的无损传递,因此在性能上通常优于两段式方案,具体方法包括基于视觉语言动作模型和基于扩散模型的方法等 [9] - 导航信息在自动驾驶中起引导、选路、选道的关键作用,其地图格式、内容及在端到端模型中的编码与嵌入方式是重要课题 [10] 算法训练策略与量产保障方案 - 仅依靠模仿学习存在局限,因人类驾驶风格迥异且部分极端场景数据难采集,需结合强化学习以学习因果关系并实现泛化 [11] - 课程项目实战涵盖基于模仿学习的算法,并重点介绍基于扩散模型和自回归的算法,在监督微调后会继续讲解强化学习实战 [12] - 在量产落地阶段,为确保轨迹稳定可靠,需有后处理的兜底逻辑,例如通过轨迹平滑优化算法对模型直出结果进行优化 [13] - 时空联合规划是重要的兜底方案,涉及多模态轨迹打分搜索及轨迹平滑等算法 [13] - 量产经验分享将从数据、模型、场景、规则等多个视角,剖析如何选用合适工具和策略以快速提升系统能力边界 [14] 课程安排与学员要求 - 课程面向进阶学员,开课时间为11月30日,预计三个月结课,采用离线视频教学配合VIP群答疑及三次线上答疑的形式 [15] - 课程章节按计划解锁,例如第一章于11月30日解锁,第二章于12月7日解锁,后续章节按周或月间隔陆续开放 [16][18] - 学员需自备图形处理器,推荐算力在4090及以上 [17] - 学员需具备的基础知识包括:熟悉自动驾驶鸟瞰图感知、视觉Transformer、端到端等常见算法;掌握强化学习、扩散模型理论基础;具备一定的Python和PyTorch语言基础;熟悉mmdet3d算法框架;以及一定的高等数学、线性代数和矩阵论基础 [17]
2025年的博世,正在脱胎换骨......
自动驾驶之心· 2025-12-12 11:02
博世汽车业务近期研究动态与核心观点 - 作为国际Tier1巨头,博世正积极应对国内智驾领域的快速发展,在预研和量产两条线上投入资源,特别是在量产方面投入更多资源以落地一段式端到端技术,并招聘了技术专家 [2] - 公司在自动驾驶多个方向投入较大,并取得了丰硕成果,整体上跟上了前沿技术发展的脚步,并开始打造自身特色 [2] 端到端自动驾驶与视觉-语言-动作模型 - **FlowDrive**:提出一种融合能量流场表示、流感知锚点细化与任务解耦扩散规划的创新框架,通过物理可解释的流场显式编码风险与车道先验,在NAVSIM v2基准测试上取得最先进性能,EPDMS达86.3 [9][12] - **AnchDrive**:提出基于混合轨迹锚点初始化的截断扩散策略,融合动态与静态锚点,显著提升扩散模型效率,仅需2步去噪,在NAVSIM v2上取得SOTA性能,EPDMS达85.5 [13][14] - **IRL-VLA**:提出基于奖励世界模型的闭环强化学习框架,通过三阶段训练实现不依赖高保真仿真的端到端驾驶策略优化,在NAVSIM v2上EPDMS得分达74.9,并在CVPR2025自动驾驶大奖赛中获得亚军 [19] - **DiffVLA**:提出视觉-语言引导扩散规划框架,结合VLM语义引导与混合稀疏-稠密感知,在NAVSIM v2闭环评测中综合指标EPDMS达到45.0 [25] - **Impromptu VLA**:构建了首个大规模、公开、专注于非结构化驾驶场景的数据集,包含约8万段视频片段,覆盖四大挑战类别,基于该数据集训练的VLA模型在安全评分与轨迹精度上均有显著提升 [23] 高精地图构建与在线地图融合 - **SparseMeXT**:系统优化了基于稀疏表示的在线高精地图构建方法,在nuScenes数据集上使稀疏方法的精度和效率全面超越现有密集BEV方法,其中SparseMeXT-Large模型达到68.9% mAP,推理效率最高达32.9 FPS [21] - **DiffSemanticFusion**:提出通过地图扩散模块增强在线高精地图稳定性的框架,结合多模态融合,在nuScenes轨迹预测任务中将QCNet性能提升5.1%,在NAVSIM的NavHard复杂场景下取得15%的性能提升 [16] 静态感知与场景重建 - **D²GS**:提出一种仅依赖相机输入的动态城市街景重建框架,无需LiDAR,在Waymo Dynamic32数据集上的图像重建与深度估计指标均超越现有LiDAR监督及LiDAR-free方法 [5][8] - **SparseMeXT**:工作被IROS 2025接收,专注于高精地图构建 [20] 视觉基础模型 - **DINO-R1**:首次将强化学习思想引入视觉基础模型,提出Group Relative Query Optimization训练策略,提升了视觉提示检测中的泛化与推理能力,在COCO、LVIS和ODinW等多个数据集上显著优于传统监督微调基线 [27]
人民大学提出的扩散语言模型,可能要改写历史...
自动驾驶之心· 2025-12-12 11:02
扩散语言模型的发展历程与核心观点 - 文章核心观点认为,扩散模型,特别是掩码扩散模型,是自回归模型之外一条有潜力通往语言智能的重要路径,其发展经历了从基础研究到规模化探索的两个阶段,并在近期展现出与自回归模型相媲美的潜力 [3][14][16] 第一阶段:2022-2024年底的基础研究阶段 - 此阶段扩散语言模型相对小众,研究主要分为连续扩散模型和离散扩散模型两条技术路线 [4][5] - **连续扩散模型**:早期尝试将基于高斯噪声的连续扩散模型直接应用于语言数据,或在其概率参数空间进行约束建模,但可扩展性存疑 [6][7] - **离散扩散模型**:掩码扩散模型被证明比均匀转移核的模型效果更好,逐渐成为研究重心 [8] - 关键理论突破包括证明了MDM模型中时间变量t是冗余的,可以将其从模型输入中移除,这一发现简化了模型结构,并建立了与BERT、MaskGIT等模型的联系 [9][10][11] 第二阶段:2024年底-2025年初的规模化阶段 - 研究重心从基础理论转向模型规模化扩展与能力验证 [14] - **学术界工作**: - 2024年10月,首个MDM的缩放定律研究完成,实验表明在GPT-2规模下,从头训练的MDM表现不亚于自回归模型 [16] - 2025年2月,发布了首个支持多轮对话的MDM模型LLaDA 8B,其能力可与LLaMA 3 8B媲美,并进行了全面开源 [16] - 后续涌现出更多在语言对齐、推理、多模态及加速技术方面的研究工作 [17] - **工业界工作**: - 继LLaDA开源后,出现了如Inception Lab的Mercury coder和谷歌的Gemini Diffusion等产品,但技术细节披露较少 [19] MDM与BERT/MaskGIT的关系及命名争议 - 从技术发展脉络看,MDM沿袭了扩散模型的概率建模思路,其历史可追溯至2015年,早于BERT [11] - 尽管通过理论简化(如移除时间变量t、使用固定掩码)后,MDM在形式上与BERT有相似之处,但二者本质区别在于MDM是一个完整的生成模型,具备定义联合概率分布和采样生成的能力,而BERT不是 [11][12] - 作者认为“扩散”是更合适的名称,因其能准确反映其生成模型的特质和技术发展路径 [12] LLaDA模型的贡献与认知价值 - LLaDA被视为一项标志性工作,其核心贡献在于改变了业界对扩散模型能否在语言任务上取得成功的认知,证明了这条技术路径的可行性 [21] - 该工作表明,最好的研究未必需要全新的技术,而是能够深化或转变人们对某个领域的理解和看法 [21] - 尽管存在如变长生成等尚未解决的挑战,但这恰恰意味着扩散语言模型领域仍有巨大的探索空间和机会 [21]
全部超越π0、π0.5!端到端全身VLA模型Lumo-1
自动驾驶之心· 2025-12-12 11:02
文章核心观点 - AI机器人公司星尘智能推出的端到端全身视觉-语言-动作模型Lumo-1,通过创新的三阶段训练架构,显著提升了机器人在复杂物理环境中的推理与操作能力,使其在多步骤长时序任务、精细操作及泛化能力上超越现有先进模型[9][11][12] 技术模型:Lumo-1的架构与训练 - Lumo-1是一个端到端全身VLA模型,旨在实现机器人的“心手合一”,通过具身化VLM、跨本体联合训练、推理-动作真机训练以及强化学习校准对齐等方式,将大模型“心智”转化为流畅的全身操作[9] - 训练采用三阶段架构:第一阶段为具身化VLM,在精选数据上预训练以获得空间理解等能力,在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型[12][17];第二阶段为跨本体联合训练,融合多机器人数据以强化指令跟随与空间推理[18];第三阶段为真机推理-动作训练,利用绳驱机器人Astribot S1的仿人示教轨迹学习真实世界的可执行动作模式[18] - 最后加入强化学习推理-行动对齐,通过多维度的奖励信号校准高级推理与低级动作之间的误差,使模型在任务成功率、动作合理性与泛化能力上显著超越仅模仿专家示范的表现[20][29] 核心能力与性能表现 - Lumo-1在多步骤长时序、精细灵巧操作、可泛化抓取放置三大类核心操作任务中,全部超越了π0、π0.5等先进模型[11][13] - 在未见过的物体、场景和指令等分布外情况,以及处理抽象、模糊、需扩展推理的指令时,优势更为明显[11][13] - 在7个多模态基准测试中的6个优于其骨干模型Qwen2.5-VL-7B,并超越了专门的具身模型RoboBrain-7B和Robix-7B,同时未损害核心多模态感知和推理能力[31] 关键技术拆解 - **动作空间建模**:通过空间动作分词器将连续动作轨迹压缩成可复用、组合的“动作单词库”,比FAST与分桶方法更紧凑和稳定,减少了数据收集引入的无关噪音[21] - **结构化推理**:将推理拆解为文字推理与视觉推理两个维度,形成解释动作的结构化推理链,使“为什么这样做”先于“怎么做”,并将视觉理解映射为路径点预测,实现从2D到3D控制的自然过渡[24][25] - **数据策略**:采用数据受限扩展定律验证,发现在固定模型规模下,数据多样性对泛化能力的影响远超数据重复次数,指明了注重数据质量的方向[30] 实际应用与泛化案例 - 机器人能够处理复杂、长时序的日常活动任务,如清扫、削皮、倾倒、刷洗、折叠等,这些任务可自然分解为多个子任务[23] - 展现出强大的抽象概念推理和情境理解能力,例如:理解“代表爱情的花”并放入花瓶;根据“KFC里的东西”推理出炸鸡、汉堡;根据“画海洋的工具”找到蓝色画笔[25] - 具备灵活的实时决策能力,例如在“把可乐放到盘子上”任务中,当左臂路径被加入障碍物时,能实时推理并切换为使用右臂[27] - 在真实环境中展现出惊人的泛化能力,如面对不同高度容器自动调整手臂姿态,以及识别从印刷体换成手写体的菜单并完成食材配对[31]
南大一篇84页的统一多模态理解和生成综述......
自动驾驶之心· 2025-12-11 11:35
文章核心观点 - 一篇由南京大学、中科院自动化所、北京大学等机构联合发表的综述《A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges》,首次系统性地定义了“统一基础模型(UFM)”概念,并构建了涵盖架构、技术、训练、应用的全景研究框架,旨在解决开源社区在多模态模型“理解”与“生成”能力协同上的混乱现状,为未来发展指明方向 [1][4] 统一基础模型(UFM)的演进历程 - UFM的演进被划分为三个阶段:第一阶段为“特定阶段”,理解与生成由完全独立的模型负责,如CLIP用于图像分类(理解),Stable Diffusion用于文生图(生成),两者无交互 [6][10] - 第二阶段为“融合阶段”,研究者将理解和生成模块整合到同一框架中,通过中间层实现协同,例如MiniGPT-5通过文本指令介导LLM生成描述再调用Stable Diffusion,NExT-GPT则通过特征介导直接控制生成模块 [7][10] - 第三阶段为“涌现阶段”,是UFM的终极目标,模型能像人类一样在理解和生成间无缝切换,以完成如“脚本驱动电影生成”等高度复杂的跨模态任务,但目前尚无模型能完全实现,仅部分模型在局部任务上展现出潜力 [8][9][10] 统一基础模型(UFM)的核心架构分类 - 架构根据“理解与生成模块的耦合度”分为三大类:外部服务集成建模、模块化联合建模和端到端统一建模 [11] - **外部服务集成建模**:LLM作为“任务调度员”,调用外部专门模型完成工作,代表模型有Visual ChatGPT、HuggingGPT、AudioGPT,优点是开发快、资源需求低,缺点是依赖外部模块质量、调用效率低且可能出现信息损耗 [12][13][17][18] - **模块化联合建模**:LLM作为核心处理理解任务,并通过“中介层”直接控制生成模块,细分为“提示介导”和“表示介导”两种方式,前者如EasyGen、GPT4Video,后者如Emu2、GILL、PUMA,优点是生成质量高、灵活性强,缺点是中介层可能成为瓶颈 [15][16][19] - **端到端统一建模**:模型在单一架构内同时处理理解和生成,是当前研究主流,根据生成机制又分为三类:自回归架构(如Emu3、LWM)、扩散架构(如Versatile Diffusion、UniDiffuser)、自回归-扩散混合架构(如Transfusion、BAGEL),优点是语义一致性强,能处理复杂跨模态任务,缺点是训练难度大、计算成本高 [20][21][24][25] 统一基础模型(UFM)的关键技术细节 - **编码策略**:核心是将多模态数据转化为模型能处理的表示,分为三类:连续编码(如CLIP ViT、VAE、Q-Former)、离散编码(如VQGAN、MoVQGAN、SEED Tokenizer)、混合编码(如级联编码的SEED、双分支编码的Janus) [22][23][26][27][30] - **解码策略**:是编码的逆过程,将模型输出转化为人类可理解的内容,同样对应三种形式:连续解码(依赖扩散模型,如Stable Diffusion,常加入“视觉先验”提升质量)、离散解码(依赖VQ-VAE类解码器,如VQGAN,部分模型会做“token压缩”以加速)、混合解码(如LaVIT、ILLUME+) [28][29][31] - **训练流程**:分为预训练、微调和数据处理三大环节 [30] - 预训练核心是搭建编码器-解码器、对齐模块、骨干网络三大模块,并优化多任务目标(如自回归的next-token预测损失、扩散的降噪损失) [32] - 微调包括任务监督微调(通用任务与多任务)和对齐微调(基于人类偏好,如DPO、GRPO),Emu3使用DPO微调后生成质量显著提升 [34][35] - 数据处理来源主要有四类:网络爬取(如LAION-5B的58亿图像-文本对)、公开数据集、私有数据、合成数据,筛选需经过属性、质量、安全三关,并格式化为“指令-输入-输出”结构 [36] 统一基础模型(UFM)的下游应用 - **机器人(具身智能)**:用于“视觉-语言-动作(VLA)”统一建模,例如LCB模型生成推理文本和动作序列,SEER用扩散模型预测目标图像以辅助机器人感知 [37][42] - **自动驾驶**:实现端到端的“感知-预测-规划”统一,例如DrivingGPT用自回归模型联合预测未来帧和车辆轨迹,Hermes用UFM预测未来LiDAR点云以提升决策可靠性 [37][42] - **世界模型**:构建物理真实的4D场景预测,例如Aether用扩散模型生成视频、深度、相机姿态,TesserAct能预测场景的表面法线、深度等细节以支持机器人交互 [37][42] - **医学**:轻量化适配医疗场景,例如LLM-CXR通过指令微调让LLM处理胸片分析并支持双向任务,HealthGPT扩展到CT、OCT等模态甚至能做跨模态生成 [37][42] - **视觉任务**:统一“感知-生成-3D重建”,例如LLMBind用MoE架构集成目标检测、分割等任务,ShapeLLM-Omni用3D VQVAE处理3D理解与生成 [37][42] 统一基础模型(UFM)的未来研究方向 - **建模架构**:需重点探索“自回归-扩散混合架构”,并优化MoE(混合专家)结构,让不同专家负责不同模态以提升协同效率 [40][42] - **统一分词器**:需开发能同时捕捉语义和细节的分词器,尤其是解决视频“长视频token爆炸”问题以提升时序建模能力 [40][42] - **训练策略**:需构建“模态交织数据”(如文本-图像-视频的连续序列),并设计能同时评估“理解准确性”和“生成质量”的统一奖励函数 [40][42] - **基准测试**:需设计专门评估“理解-生成协同”能力的基准,以真正衡量UFM的“统一能力” [40][42]
时隔一年DiffusionDrive升级到v2,创下了新纪录!
自动驾驶之心· 2025-12-11 11:35
核心观点 - 华科王兴刚教授团队提出DiffusionDriveV2,通过引入强化学习解决了其前代模型DiffusionDrive在端到端自动驾驶轨迹规划中面临的“多样性与持续高质量”两难困境 [1][3] - 该方法创新性地结合了锚点内GRPO、锚点间截断GRPO与尺度自适应乘法探索噪声,在保留多模态生成能力的同时,显著提升了轨迹的整体输出质量与安全性 [4][12] - 在NAVSIM v1和v2数据集的闭环评估中,DiffusionDriveV2结合ResNet-34主干网络取得了当前最优性能,PDMS分别达到91.2和85.5,创下新纪录 [4][33] 技术背景与问题 - 端到端自动驾驶(E2E-AD)直接从原始传感器输入学习驾驶策略,是当前发展浪潮 [5] - 传统单模态规划器仅回归单一轨迹,无法提供备选方案;基于选择的方法使用静态候选轨迹库,灵活性有限 [5] - 原始扩散模型应用于轨迹生成时面临模式崩溃(mode collapse)问题,倾向于生成保守且单一的轨迹,无法捕捉未来多样性 [5][13] - DiffusionDrive通过预定义轨迹锚点构建高斯混合模型先验,将生成空间划分为对应不同驾驶意图的子空间,从而促进多样化行为生成 [5][13] - 但DiffusionDrive依赖模仿学习,其训练目标仅优化与专家轨迹最接近的“正模式”,对占样本绝大多数的“负模式”缺乏约束,导致生成大量低质量甚至碰撞的轨迹,无法保证持续高质量 [8][17][18] DiffusionDriveV2核心方法 - **整体架构**:采用DiffusionDrive作为预训练的轨迹生成器进行冷启动,引入强化学习目标对所有生成模式施加约束并推动探索 [19][21] - **尺度自适应乘法探索噪声**:为解决轨迹近端与远端尺度不一致问题,采用纵向与横向乘法高斯噪声替代加法噪声,生成的探索路径更平滑,保留了轨迹连贯性 [24] - **锚点内GRPO**:为避免不同驾驶意图(如直行与转弯)间不当的优势比较导致模式崩溃,仅在每个锚点内部生成的轨迹变体组内执行GRPO策略更新 [9][24] - **锚点间截断GRPO**:为解决锚点内GRPO优势估计丧失全局可比性的问题,修改优势估计,将所有负优势截断为0,并对发生碰撞的轨迹施加-1的强惩罚,原则是“奖励相对改进,仅惩罚绝对失败” [27][28] - **模式选择器**:采用两阶段“粗到细”评分器,结合二元交叉熵损失和Margin-Rank损失,从多模态预测中选择最优轨迹 [29] 实验结果与性能 - **基准测试成绩**:在NAVSIM v1测试集上,PDMS达到91.2,相比DiffusionDrive提升3.1;在NAVSIM v2测试集上,EPDMS达到85.5 [4][33] - **模型效率**:仅使用2180万参数的ResNet-34主干网络,性能优于基于9690万参数V2-99主干网络的对比方法(如GoalFlow和Hydra-MDP) [33] - **多样性与质量权衡**: - 原始扩散方法(如TransfuserTD)多样性得分仅0.1,质量稳定但缺乏多样性 [37] - DiffusionDrive多样性得分高达42.3,但质量无法保证(PDMS@10为75.3) [37] - DiffusionDriveV2多样性得分30.3,在多样性与质量间实现最优权衡,其PDMS@1为94.9(提高上限),PDMS@10为84.4(提高下限) [37][38] - **消融实验验证**: - 乘法探索噪声优于加法噪声,PDMS从89.7提升至90.1 [40] - 使用锚点内GRPO使PDMS从89.2提升至90.1 [41] - 使用锚点间截断GRPO使PDMS从89.5提升至90.1 [42] 研究意义与贡献 - 据研究者所知,DiffusionDriveV2是首个直接面对并解决截断扩散模型在轨迹生成中“多样性与持续高质量”两难困境的工作 [12] - 是首个成功将GRPO方法迁移到基于锚点的截断扩散模型的工作 [12] - 该方法证明了强化学习的“探索-约束”范式能有效提高模型性能下限与上限,为端到端自动驾驶规划提供了新思路 [8][38]
世界模型和VLA正在逐渐走向融合统一
自动驾驶之心· 2025-12-11 11:35
文章核心观点 - 自动驾驶领域的技术路线正在融合,视觉语言模型与世界模型的结合是通往更强通用具身智能的关键方向 [3][4] - 自动驾驶之心知识星球是一个综合性的技术社区,旨在为行业人士提供学习、交流和求职的平台,已汇聚超过4000名成员 [10][28] 技术发展趋势 - 视觉语言模型与世界模型正走向融合统一,前者负责抽象推理,后者负责物理感知,结合是通往通用具身智能的答案 [3][4] - 学术界已有多个探索VLA与WM融合的工作,例如VLA-RFT、WorldVLA、Unified Vision-Language-Action Model以及DriveVLA-W0 [4] - 未来L4级自动驾驶的训练链路将是视觉语言模型、强化学习和世界模型三者的结合 [5] - 行业内的技术路线争论多与宣传口径有关,实际技术发展多有相互参考,未来结合形式仍需探索 [7] 知识星球社区概况 - 社区是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [10] - 社区成员超过4000人,目标在未来2年内发展到近万人规模 [10] - 社区成员背景多元,来自上海交大、北京大学、CMU、清华大学、蔚小理、地平线、华为等国内外顶尖高校和头部公司 [28] - 社区整理了近40个技术方向的学习路线,并邀请了数十位活跃在一线的产业界和学术界嘉宾进行分享和答疑 [12][16] 社区内容与资源 - 社区汇总了超过40个开源项目、近60个自动驾驶相关数据集以及行业主流仿真平台 [29] - 技术方向覆盖全面,包括但不限于:自动驾驶感知、规划控制、仿真、端到端学习、VLA、世界模型、多模态大模型、BEV感知、3D目标检测等 [17][29][36][39] - 提供“自动驾驶100问”系列实战内容,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制面试、BEV感知、相机标定等主题 [17] - 社区内部有专属学习视频教程,涵盖世界模型、自动驾驶大模型、Transformer、3D目标检测、毫米波感知等主题 [98] - 不定期举办线上直播分享,目前已超过一百场,由行业专家分享最新研究成果 [101] 社区提供的服务与支持 - 为初学者提供全栈方向的学习课程和完备的入门技术栈路线图 [18][24] - 为从业者提供产业体系、项目方案以及最新的学术与工业应用进展 [26][32] - 建立了与多家自动驾驶公司的岗位内推机制,可协助成员投递简历 [22] - 社区内部有活跃的问答交流,成员可就技术入门、学习路线、就业跳槽、研究方向选择等各类问题进行提问并获得解答 [13][32][103]