强化学习
搜索文档
拒绝Reward Hacking!港科联合快手可灵提出高效强化学习后训练扩散模型新范式
机器之心· 2026-01-25 10:35
文章核心观点 - 强化学习微调扩散模型时面临“两难困境”:追求高奖励会导致图像质量崩坏,而引入KL正则化又会阻碍模型探索和收敛 [2] - 研究团队提出全新框架GARDO,通过门控自适应正则化和多样性感知优化,成功在防止奖励黑客攻击的同时,实现了高效的样本探索和多样性生成 [2] - GARDO框架基于三个核心洞察:正则化不需要“雨露均沾”、静态参考模型会限制优化上限、以及需要鼓励多样性生成以防止模式坍塌 [14][17][18] - 实验表明,GARDO在多个基底模型和任务上实现了全方位的性能提升,包括拒绝黑客攻击、提升样本效率和泛化性,甚至激发了模型的涌现能力 [20][22][24] 背景与动机:RL后训练中的陷阱 - 在视觉任务中,定义一个完美的奖励函数极其困难,通常使用代理奖励,这导致了典型的奖励黑客攻击问题 [5] - 当模型过度优化代理奖励时,会找到奖励模型的漏洞,导致代理分数极高但生成的图像质量崩坏,充满噪点、伪影并失去真实感 [5] - 传统的KL正则化方法会带来两个主要问题:样本效率低,以及阻碍模型探索参考模型未发现的高奖励区域 [9][10] GARDO框架的核心方法 - **门控KL机制**:仅对高不确定性样本施加惩罚,实验发现仅惩罚约10%的高不确定性样本即可有效防止奖励黑客攻击,让其余90%的样本自由探索 [14][21] - **自适应正则化目标**:定期更新参考模型,将其重置为当前策略,这为模型设立了动态更新的“锚点”,既保证训练稳定性,又允许模型持续进化 [17][21] - **多样性感知优势重塑**:利用DINOv3提取特征计算样本在特征空间中的稀疏度作为“多样性分数”,并将此分数以乘法形式作用于正向优势函数,以鼓励多样性生成并防止模式坍塌 [18] 实验结果:定量评估 - 在OCR任务上,GARDO在保持高识别率的同时,图像质量指标没有下降甚至有所提升 [22] - 学习曲线显示,GARDO能够以更少的步数达到更高的奖励水平,样本效率更高 [22] - 在未见过的测试指标上,GARDO表现出极强的鲁棒性 [22] - 具体数据:在SD3.5-M基底模型上进行OCR任务训练600步后,GARDO方法在Aesthetic Score上达到0.65,OCR识别率达到0.92,PickScore达到5.07,ImgRwd达到22.41,ClipScore达到0.92 [23] - 在GenEval任务训练2000步后,GARDO在Aesthetic Score上达到0.95,GenEval Score达到0.68,PickScore达到5.09,ImgRwd达到22.34,ClipScore达到0.95,HPSv3达到9.27,Diversity达到24.95 [23] 涌现能力 - 在极具挑战性的“数数任务”中,基底模型和传统RL方法很难生成超过9个物体 [25] - GARDO成功学会了生成10个甚至11个物体 [25] - 具体数据:在Counting 10任务上,GARDO的成功率达到0.38,显著高于GRPO方法的0.28;在Counting 11任务上,GARDO成功率为0.18,也高于GRPO的0.15 [26] 总结与意义 - 这项工作证明,在视觉生成的强化学习中,精准的控制比强力的约束更重要 [27] - GARDO为希望利用RL进一步释放扩散模型潜力的研究者和开发者提供了一个极具价值的通用框架 [27] - 框架的核心可总结为:拒绝盲目正则化、拒绝静态锚点、拒绝模式坍塌 [29]
AI赛车开创世界纪录背后的“弯道”与“换道”
新浪财经· 2026-01-24 13:10
文章核心观点 - 清华大学极限竞速战队的人工智能赛车在2025年Hitch Open世界AI竞速锦标赛总决赛中,于湖南张家界天门山赛道以16分10秒838的圈速完赛并夺得总冠军,创造了AI自动驾驶赛车挑战极限山地赛道的世界纪录 [1] - 此次赛事是对自动驾驶自主技术的一次极限测试和成功验证,其背后的一系列关键技术攻关与创新路径探索,为行业提供了原创性技术突破方案,并展现了产学研结合的价值 [3][4][5] 赛事背景与挑战 - 总决赛赛道为湖南张家界天门山盘山公路,全长10.77公里,垂直落差1100米,拥有99道急弯 [1] - 赛道构成“复合极限”测试场:山体遮挡导致卫星定位信号频繁中断;陡坡与急弯密集交替,要求AI在毫秒内完成连续精准决策;路面湿滑、隧道明暗急剧变化对传感器感知和执行器响应提出苛刻要求 [3] 关键技术攻关与创新 - 团队提出“跑哪加载哪”思路,创新开发局部地图动态加载算法,解决了全量加载三维点云地图导致定位频率骤降的问题,实现了超大场景下的实时高精位姿估计 [3] - 通过车云协同、虚实联合的方式采集数据,将每道弯的切入角度、道路坡度、地面摩擦系数等融入模型,使赛车能在小偏差范围内平顺过弯 [3] - 为应对山区信号遮挡,团队开发了感知-定位融合技术,使车辆可依靠自身传感器实现高实时、高精度的航迹推算 [5] - 针对极端场景开发的端到端决策控制算法,能够提升车辆在爆胎、路面突然湿滑等危急情况下的稳定控制能力 [5] 技术路径与行业方案 - 自2018年起,清华大学科研团队前瞻性探索以强化学习为核心的端到端自动驾驶新路径,确立了以仿真数据为主、实车数据为辅,强化学习与模仿学习相结合的训练路径 [4] - 与当时行业主流依赖海量实车数据的模仿学习方案相比,该路径显著降低了训练成本,并使模型具备通过自主探索持续进化的更高潜力 [4] - 基于此路径,团队推出了国内首套全栈神经网络化的端到端自动驾驶系统,为行业提供了原创性技术突破方案 [4] 现实价值与未来展望 - AI算法必须置于真实甚至极限场景中才能充分检验其有效性和鲁棒性,“天门山经验”极具现实价值 [5] - 在极限道路工况下,AI的感知、决策、控制能力与人类最高水平仍有显著差距,这为未来的教学实践、科技创新和人才培养提供了广阔探索空间 [5] - 将“产学研用”喻为一条河流,高校的前沿探索与人才孵化如同上游活水,源源不断地为中下游产业输送创新技术和新鲜血液 [5]
在OpenAI“创新已经变得困难”,离职高管深喉爆料
36氪· 2026-01-23 21:12
OpenAI的创新与结构性困境 - 随着竞争加剧与组织急速膨胀,OpenAI正逐渐陷入一种难以再承担真正高风险研究的结构性困境,一些前沿创新的研究方向已经难以在内部推进 [1] - 成本、增长压力等多重因素影响了OpenAI对风险的“胃口”,同时该公司尚未找到良好的跨团队研究协作模式 [3] - 对OpenAI来说,“集中力量办大事”已经变得有些困难,阻碍AI Lab研究的因素不是算力短缺,而是缺乏专注 [5] 行业竞争格局与路径趋同 - 当前全球范围内争夺“最佳AI模型”的竞争异常激烈且严苛,几乎所有主要AI公司都面临持续展示实力、不断推出最强模型的巨大压力 [8] - 目前大概有五家严肃的AI公司,使用几乎相同的技术配方,在同一技术基础上构建略有差异的产品,模型之间缺乏真正的多样性 [14][15] - 谷歌的崛起与其说是“回归”,不如说是OpenAI自己犯了错误,没能充分把握住自己的领先优势,OpenAI本应该持续领先 [3][47] 技术发展方向与AGI展望 - Transformer架构肯定不是最终形态,模型仍然可以通过多种方式改进,而其中许多路径至今尚未被系统性地实践 [12] - 实现AGI仍然缺失关键拼图,架构创新与持续学习是两大重要方向,AGI预计将会在2029年左右实现 [5][28][32] - 强化学习将卷土重来,在强大的世界表征(通过大规模预训练获得)之上,通过强化学习构建能力层级是未来的方向 [26][27] 人才流动与创新环境 - AI领域的人才争夺战已演变成一场肥皂剧,有些人频繁地更换工作,而真正投入到工作的时间不多 [4][44] - 明星AI研究员并不是驱动创新的核心因素,公司本身能否打造个人责任感强、允许探索和做大事的环境,可能更为关键 [4][66][67] - 研究人员的高薪酬水平可能带来副作用,使人们变得不愿意失去工作,更倾向于追逐短期回报,从而抑制了冒险精神 [18] OpenAI的内部文化与执行力 - OpenAI从2019年约30人发展到现在的几千人,但公司瞄准AGI、改变世界的野心始终没变 [7] - OpenAI早期有相当高比例的波兰裔员工,他们以勤奋和能识破“忽悠”著称 [45][46] - OpenAI真正擅长的是把研究从1推进到100,即采纳初步验证的想法,并找出如何让它们在大规模训练前沿模型时可靠地工作 [64] 对其他AI公司的评价 - 在过去一年里,对Anthropic的钦佩程度大幅上升,其起步更晚、资源受限,但成功构建了正在改变软件开发方式的卓越产品 [53][54] - Meta的策略可能是利用行业已掌握的AI技术来构建连接人和打造体验的产品,从其作为一家极其盈利的社交网络公司角度来看,这可能是一种相当不错的策略 [50][51][52]
基于9份官网的急招岗位, 推测理想在做人形机器人
理想TOP2· 2026-01-22 20:16
公司业务方向 - 公司正在积极招聘人形机器人相关领域人才 包括灵巧手机械设计/算法研发/嵌入式软件工程师 双足算法研发工程师 全身运控算法研发工程师等 合情推测公司正在布局人形机器人业务 [1] - 招聘岗位职责明确指向双足机器人行走/转向/起步停止/跑步 以及双臂 腿部 躯干 头部等部位的协调运动 证实了公司对人形机器人整机运动控制能力的开发 [1] 机器人技术架构 - 机器人采用直驱型五指灵巧手结构 而非拉线式 强调使用空心杯/直流无刷电机和推杆/微型模组 [2] - 驱动核心采用旋转关节模组方案 涉及数百安培功率路径及大功率电机驱动 [3] - 控制系统采用强化学习与模型预测控制/全身动力学控制的混合架构 强化学习在双足运控和灵巧手抓取中占据核心地位 要求熟悉PPO/SAC/TD3等算法并具备仿真到真机的落地能力 [3] - 灵巧手算法要求结合触觉传感器进行闭环力控 而不仅是视觉抓取 [3] - 通信总线选用EtherCAT 通讯周期要求小于1毫秒 关节与灵巧手底层的电流/速度/位置环控制周期被压缩至小于100微秒 [3] - 嵌入式系统划分为模组控制与传感器/算力平台两部分 对实时性的要求达到工业伺服级 [3] 硬件与嵌入式系统设计 - 微控制器/数字信号处理器选用STM32或TI C2000系列 [4] - 操作系统涉及FreeRTOS与经过内核实时性改造的RT-Linux [4] - 硬件设计面临巨大散热挑战 需处理数百安培电流产生的焦耳热 灵巧手驱动需在紧凑空间散热受限下工作 [4] - 硬件工程师需专职进行PCB布局设计 且必须有大功率电驱量产经验 表明电路板层叠结构复杂 电磁兼容挑战巨大 [4] - 嵌入式Linux驱动开发要求高 需处理视觉/触觉多模态大数据的高带宽 同时保证全链路小于1毫秒运动控制的低延迟 [4] - 机械与电子协同设计面临难点 需在狭小空间内塞入直驱电机并实现大扭矩 同时解决散热和布线问题 [4]
李弘扬团队PlannerRFT:扩散轨迹规划新方案,提升复杂驾驶场景性能(同济&港大)
自动驾驶之心· 2026-01-21 17:16
文章核心观点 - 由港大OpenDriveLab、同济大学等团队提出的PlannerRFT框架,是一种用于基于扩散模型的自动驾驶轨迹规划器的闭环、样本高效强化微调框架,旨在解决现有方法在强化微调中探索能力不足的问题,从而提升规划器的闭环性能、安全性和鲁棒性 [2][5][14] - 该框架通过策略引导去噪机制,实现了多模态和场景自适应的轨迹采样,为强化学习优化提供了更有效的探索信号 [5][8][13] - 为支持大规模并行训练,团队开发了名为nuMax的GPU加速仿真器,其轨迹推演速度较原生nuPlan仿真器快10倍 [2][6][24] - 在nuPlan基准测试上的实验表明,PlannerRFT取得了最先进的性能,特别是在包含动态交互的复杂场景中,规划安全性得到显著提升 [2][9][35] 背景与问题定义 - 基于扩散模型的规划器已成为生成类人驾驶轨迹的主流方法,但通过模仿学习预训练的模型存在分布偏移和目标错位问题,限制了其在真实场景中的鲁棒性 [4] - 近期研究尝试将强化微调融入扩散规划器以提升性能,但原生扩散模型存在模态坍缩问题,导致在去噪过程中生成的轨迹缺乏多样性,难以进行有效的多模态探索,阻碍了强化学习的优化效率 [4][5] - 有效的强化微调需要规划器具备两种关键能力:多模态(生成多样化操作假设)和适应性(根据场景自主调整探索分布)[4] PlannerRFT框架设计 - **双分支优化策略**:框架采用“生成-评估”范式,在保持原始推理流程不变的前提下,通过一个专门的探索策略模块自适应地引导去噪过程,同时利用分组相对策略优化微调轨迹分布 [2][13] - **策略引导去噪**:为生成多模态轨迹,引入了基于能量的分类器引导机制,通过注入残差偏移量,使模型能在参考轨迹附近生成多样化轨迹,引导信号分解为横向和纵向两个正交分量进行解耦控制 [8][15][17] - **探索策略设计**:探索策略模块基于驾驶场景上下文和参考轨迹,学习预测用于调节横向和纵向引导尺度的Beta分布参数,实现场景自适应的轨迹采样 [18][19] - **轨迹采样**:在强化微调阶段,从探索策略学习到的分布中重复采样引导尺度,每个采样对对应一种独特的驾驶模态,从而生成多样化的轨迹集合用于优化 [20] 训练基础设施与优化方法 - **nuMax仿真器**:为加速训练,开发了基于Waymax的GPU并行仿真器nuMax,其仿真速度较原生nuPlan仿真器快10倍,支持高通量并行轨迹推演,这对实现规模化强化学习训练至关重要 [6][24] - **三阶段训练流程**:包括模仿学习预训练、模仿学习微调和强化学习微调,强化微调基于近端策略优化和分组相对策略优化实现 [6] - **生存奖励机制**:为在复杂场景中稳定优化,引入了生存奖励,对非终端轨迹片段的奖励进行累积,鼓励规划器延迟失效事件的发生,从而提升长时域可行性和探索效果 [9][27] - **最佳实践**:包括采用5步DDIM去噪以增强探索随机性、将探索策略初始化为生成零均值引导尺度、以及使用包含适度比例复杂场景的平衡数据集进行微调 [30][41] 实验结果与性能分析 - **主要性能提升**:在nuPlan基准测试中,与预训练的Diffusion Planner相比,PlannerRFT在反应式交通设置的Val14基准测试上得分提升1.66分,在Test14-hard基准测试上提升2.99分 [35] - **与基线对比**:PlannerRFT在四个基准测试中的三个取得了最佳整体性能,特别是在包含动态、高交互场景的Test14-hard非反应式数据集上,性能显著优于其他现有最优规划器 [36] - **行为模式演化**:强化微调使规划器呈现出与模仿学习不同的行为模式,通过奖励导向优化,驾驶策略逐渐调整为更安全、高效的机动动作,例如从发生碰撞到保持安全,再到执行果断且安全的变道 [37] - **探索策略有效性**:消融实验表明,与无引导、均匀分布采样或固定Beta分布采样相比,PlannerRFT提出的策略引导去噪在提升轨迹多样性的同时,实现了更高的闭环性能得分和更稳定的训练过程 [39][40] - **微调数据影响**:实验发现,仅在碰撞场景上训练会导致性能下降,而在所有简单场景上训练提升有限,最佳结果来自于在结合了碰撞和低得分场景的平衡数据集上进行微调 [41] - **关键参数影响**:奖励公式方面,生存奖励优于终端奖励;引导偏移量方面,适度的偏移量能在探索与利用之间取得最佳平衡 [43][46][47]
DeepSeek新模型“MODEL1”曝光
第一财经· 2026-01-21 16:56
新模型“MODEL1”的技术进展与行业推测 - 在DeepSeek-R1发布一周年之际,其开源社区GitHub上更新了一系列FlashMLA代码,项目文件中数十处提到了此前未公开的“MODEL1”大模型标识符 [3] - “MODEL1”标识符与已知的现有模型“V32”(即DeepSeek-V3.2)被并列提及,根据代码上下文,“MODEL1”很可能代表一个不同于现有架构的新模型 [4] - 行业对新模型的具体身份有不同看法,可能是V4模型、推理模型R2,或是V3系列的终极版 [4] - FlashMLA是公司独创的、针对英伟达Hopper架构GPU深度优化的软件工具,是实现模型低成本、高性能的关键技术之一 [4] - 开发者分析指出,“MODEL1”与“V32”在键值(KV)缓存布局、稀疏性处理方式以及对FP8数据格式的解码支持等关键技术方面存在区别,表明新架构可能在内存优化和计算效率上进行了针对性设计 [4] - 结合模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证,意味着新模型上线时间越来越近 [4] 公司近期技术动态与市场传闻 - 此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在编程能力上超过了市场上的其他顶级模型 [5] - 近一个月里,公司团队陆续发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”,业内猜测新模型可能会整合这些最新研究成果 [6] - 公司在2024年12月推出旗舰模型V3,凭借高效的MoE架构确立了强大的综合性能基础,随后在2025年1月发布了推理模型R1,基于强化学习,在解决数学问题、代码编程等复杂推理任务上表现卓越 [6] 行业影响与全球开源生态格局 - 海外开源社区Hugging Face发布博客《“DeepSeek时刻”一周年》,回顾了中国AI力量在过去一年如何重塑全球开源生态 [6] - 文章指出,DeepSeek-R1是Hugging Face上获赞最多的模型,其开源降低了推理技术、生产部署与心理三个门槛,并推动了国内公司在开源方向上形成非协同但高度一致的战略走向 [8] - 过去一年,百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国 [8] - 尽管西方寻求替代方案,但全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础,中国AI已深度嵌入全球供应链 [8]
R1模型发布一周年 DeepSeek新模型“MODEL1”曝光
新浪财经· 2026-01-21 12:05
公司技术路线与产品矩阵 - DeepSeek已形成两条主要技术路线:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家” [2] - 公司于2024年12月推出重要里程碑模型V3,其高效的MoE架构奠定了强大的综合性能基础 [3] - 公司在V3基础上快速迭代,先后发布了强化推理与智能体能力的V3.1,并于2025年12月推出最新正式版V3.2 [3] - 公司同时推出了专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale [3] - 公司于2025年1月发布R1模型,该模型通过强化学习在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式 [3] 新模型“MODEL1”的发现与推测 - 2025年1月,DeepSeek官方GitHub仓库更新FlashMLA代码,代码分析发现了一个此前未公开的模型架构标识“MODEL1”,该标识在114个总代码文件中被提及31次 [1] - “MODEL1”是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2 [2] - 推测“MODEL1”很可能是一个高效推理模型,相比V3.2内存占用更低,适合边缘设备或成本敏感场景 [2] - 推测“MODEL1”也可能是一个针对16K+序列优化的长序列专家,适合文档理解、代码分析等长上下文任务 [2] 技术创新与硬件适配 - FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门用于加速大模型的“推理生成”环节 [1] - FlashMLA算法的实现基础MLA(多层注意力机制)是DeepSeek模型实现低成本、高性能的关键技术之一,用于在模型架构层面减少内存占用,最大化利用GPU硬件 [1] - “MODEL1”的硬件实现跨越多个GPU架构:在英伟达H100/H200(SM90架构)上有64头和128头两个配置版本;在最新的B200(SM100架构)上有专门的Head64内核实现 [2] - SM100架构的Head128实现仅支持“MODEL1”,不支持V3.2,推测DeepSeek为适配英伟达新一代GPU专门优化了“MODEL1”的架构 [2] 未来产品发布与技术整合 - 科技媒体The Information爆料称,DeepSeek将在2025年2月中旬农历新年期间推出新一代旗舰AI模型DeepSeek V4,该模型将具备更强的写代码能力 [3] - DeepSeek研究团队近期发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)” [3] - 此举引起用户猜测,公司正在开发中的新模型有可能会整合这些最新的研究成果 [3]
滴滴清华签署未来出行联合研究中心二期合作协议
北京商报· 2026-01-20 20:45
公司与高校合作 - 滴滴与清华大学签署未来出行联合研究中心二期合作协议并开启强化学习产学研深度融合专项合作 [1] - 双方将加强前沿技术联合攻关、创新人才培养并在未来出行生态构建等方面持续深化合作 [1] - 自2019年成立联合研究中心以来双方在共享出行、大数据与人工智能、自动驾驶等领域累计联合开展科研合作近百项 [1] 合作成果与产业化 - 多项技术从实验室创新转化为产业应用 [1] - 2025年滴滴与王建强教授团队联合攻关的“智能车辆行驶安全关键技术及产业化应用”项目获北京市科技进步一等奖 [1] - 双方通过联合课程建设、设立实习实践基地等方式共同培养行业优秀人才 [1]
人形机器人与强化学习交流群来啦~
具身智能之心· 2026-01-20 17:30
行业动态与社群建设 - 行业正围绕具身智能的核心领域“人形机器人”与“强化学习”技术,建立专业的技术交流社群,旨在汇聚相关领域的研究与从业人员 [1] - 社群对从事强化学习、人形机器人相关方向的专业人士开放加入 [1]
以DiffusionDriveV2为例,解析自动驾驶中强化学习的使用
自动驾驶之心· 2026-01-20 17:03
文章核心观点 - 强化学习是解决端到端自动驾驶中模仿学习无法处理问题(如居中驾驶)的关键技术 [1] - 文章以DiffusionDriveV2为例,深入解读了PPO和GRPO等强化学习算法在自动驾驶轨迹生成中的应用与改进 [2][5][6] 强化学习在自动驾驶中的重要性 - 自动驾驶进入端到端阶段后,需要强化学习来解决模仿学习无法处理的问题,例如车辆居中行驶 [1] - 强化学习是后训练不可或缺的一部分,其热度因大模型发展而提升 [1] 主流强化学习算法:PPO与GRPO - PPO CLIP是最经典的PPO算法,其损失函数通过裁剪策略比例来稳定训练 [2][3] - 在自动驾驶中,对动作的评价是针对整个轨迹的质量,而非单个路径点 [3] - 优势函数A反映了当前决策相对于平均预期奖励的好坏,比单纯使用奖励更稳定,能避免不同场景间奖励方差过大的问题 [4] - GRPO的主要改进在于使用当前策略生成多个轨迹的平均奖励来估计价值函数V,而非使用Critic模型 [4][9] DiffusionDriveV2的强化学习损失函数 - 损失函数由三部分组成:DiffusionDrive的多个锚点设计、GRPO的组设计以及扩散模型的去噪过程 [9] - 锚点设计是DiffusionDrive V1的核心,用于生成多样化的轨迹 [9] - GRPO的组概念被修改,每个锚点拥有独立的组,以避免不同驾驶行为的数据相互压制 [11][12] - 组内优势的计算方式为:某个轨迹的奖励减去组内所有轨迹奖励的均值,再除以组内奖励的标准差 [12] - 引入了锚点间GRPO,对不同锚点的优势进行进一步优化,以避免优化方向坍塌 [13][14] DiffusionDriveV2的其他技术改进 - 轨迹加噪采用横向和纵向分别设定尺度的方法,以确保加噪后的轨迹保持正常 [15] - 新版本终于包含了模型选择器 [15] 当前挑战与未来展望 - 目前量产应用中,强化学习训练多为单步且作用于整个轨迹,因为端到端的闭环仿真在生成效率和质量上尚不足以支撑训练 [3] - 自动驾驶中的强化学习技术远未成熟,单步约束与模仿学习的区别有限,期待未来闭环仿真技术的进步带来更深入的强化学习应用 [15]