Workflow
强化学习
icon
搜索文档
端到端量产这件「小事」,做过的人才知道有多痛
自动驾驶之心· 2025-11-24 08:03
行业人才供需现状 - 端到端技术是当前汽车行业量产的核心关键词,成为各家车企的重点招聘岗位 [1] - 市场上真正的端到端量产人才极为稀缺,该岗位要求具备从模型优化、场景优化、数据优化到下游规划兜底的全栈能力 [1] - 行业出现人才供需失衡现象:一方面求职者面临巨大就业压力,另一方面企业难以招到合适人才 [1] 技术挑战与课程设计背景 - 端到端技术在工业界量产仍需攻克诸多难题,包括导航信息的引入、强化学习调优、轨迹的建模及优化等 [3] - 为应对行业实际需求,专门设计了为期三个月的端到端量产进阶课程,聚焦从实战到落地的全过程 [3] 课程核心内容体系 - 课程涵盖核心算法包括:一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 [5] - 第一章重点介绍感知模型一体化架构和规控learning化方案,这是各大公司的核心必备技能 [10] - 第二章深入讲解两段式端到端算法框架,包括建模方式、信息传递机制以及PLUTO算法实战 [11] - 第三章分析一段式端到端框架,探讨基于VLA和diffusion等方法,并通过VAD系列进行深入掌握 [12] - 第四章专门研究导航信息在量产中的应用,包括地图格式、编码与嵌入方式 [13] - 第五章从模仿学习过渡到强化学习,重点介绍RL算法及其训练策略以解决corner-case场景泛化问题 [14] - 第六章进行nn planner项目实战,结合模仿学习与强化学习算法 [15] - 第七章讲解量产兜底方案,包括轨迹平滑优化算法和多模态轨迹打分搜索算法 [16] - 第八章分享实际量产经验,从数据、模型、场景、规则等多视角剖析问题解决策略 [17] 课程实施与招生信息 - 课程采用离线视频教学结合VIP群答疑模式,包含三次线上答疑,总时长三个月 [20] - 课程从11月30日开始按周解锁章节,具体安排为:11月30日第一章、12月7日第二章、12月14日第三章、12月21日第四章、12月30日、1月15日、2月10日、2月24日均为第五章 [20] - 课程仅限35个招生名额,采取小班授课模式 [5][23]
理想提出首个包含自车和他车轨迹的世界模型
理想TOP2· 2025-11-23 19:56
技术模型创新 - 公司首次提出包含自车和他车轨迹的驾驶世界模型,旨在更逼真地模拟自车与驾驶场景的交互,并能通过改变自车-他车轨迹生成多样化的新颖场景[1][8] - 为解决缺乏交互性、特征分布不匹配和空间映射困难三大缺陷,公司提出EOT-WM模型,将轨迹点投影到图像坐标系并在空白视频上绘制轨迹,生成用于学习的轨迹视频,实现统一视觉模态[6] - 采用时空变分自编码器对场景视频和轨迹视频进行编码,获得共享特征空间的场景视频隐变量和轨迹隐变量,确保时空对齐[7] 模型架构与训练 - 预训练阶段在云端训练32B视觉语言基座模型,包含3D视觉、高清2D视觉以及驾驶相关语料,随后蒸馏成3.2B的MoE模型以适应车端算力[1] - 后训练阶段引入action将模型转化为视觉语言行动模型,参数量接近4B,采用短链条思维链并利用扩散模型对未来4-8秒的轨迹和环境进行预测[1] - 强化学习阶段包含人类反馈强化学习和不依赖人类反馈的纯强化学习,基于舒适性、无碰撞、遵守交规三大指标自我进化,目标驾驶水平超越人类[1] 模型控制与评估 - 设计注入轨迹的扩散Transformer,将轨迹隐变量提供的运动引导集成到视频隐变量中,以便更精确地对噪声视频隐变量进行去噪[7][9] - 整个模型可在文本和轨迹控制下基于给定初始帧预测未来帧,并提出基于控制隐变量相似度的指标用于比较预测轨迹隐变量与真值轨迹隐变量[7][9] - 与GEM模型和英伟达Cosmos模型对比,指出GEM模型使用未来物体特征和人体姿态不切实际,Cosmos模型参数量达70亿以上且推理训练成本高昂[5] 研究进展与发布 - 驾驶世界模型论文第一版于2025年3月12日发布,AAAI 2026会议录用版于2025年11月19日发布[2] - 论文第三版于2025年7月31日发布,新增作者并担任项目负责人,同时移除另一位作者,增加对GEM模型和英伟达Cosmos模型的讨论[5] - 论文第四版主要根据AAAI排版要求进行微调和双栏排版,各项量化实验结果与第一版保持一致[5]
雷军 :辅助驾驶不是自动驾驶,驾驶时仍需时刻保持专注
搜狐财经· 2025-11-23 16:56
11月23日,雷军发文总结小米端到端辅助驾驶HAD增强版的升级点。纵向加减速更舒适,旁车加塞时 可提前预判减速,及时跟车提速,行车更舒适安全。横向变道更丝滑,在变道并线、借道绕行时表现更 自然流畅。路况理解能力提升,在多车道复杂大路口能提前看懂导航信息,优化走对路、选对道的能 力。 此外,雷军还强调,辅助驾驶不是自动驾驶,驾驶时仍需时刻保持专注。此前在11月21日2025广州车展 开幕日,小米汽车端到端辅助驾驶"Xiaomi HAD增强版"正式发布,其在1000万Clips版本基础上引入"强 化学习"与"世界模型",AEB防碰撞辅助升级,新增紧急转向辅助。 ...
雷军提醒:辅助驾驶不是自动驾驶,驾驶时仍需时刻保持专注
搜狐财经· 2025-11-23 14:25
小米端到端辅助驾驶HAD增强版升级总结 - 公司于2025广州车展开幕日正式发布“Xiaomi HAD 增强版” [7] - 该版本在1000万 Clips 版本基础上引入了“强化学习”与“世界模型” [7] - 核心升级点包括纵向加减速更舒适、横向变道更丝滑、路况理解更充分 [3] 具体功能与性能提升 - 纵向控制:旁车加塞时能提前预判减速,及时跟车提速,提升舒适与安全 [3] - 横向控制:变道并线、借道绕行时更丝滑且不犹豫 [3] - 导航与决策:在多车道复杂大路口能提前看懂导航信息,优化走对路、选对道能力 [3] - 安全功能升级:AEB防碰撞辅助升级,并新增紧急转向辅助 [7] 辅助驾驶安全功能列表 - 车道相关:车道保持辅助(预警与纠偏)、紧急车道保持 [9] - 监测预警:盲区监测预警、车门开启预警、变道辅助预警 [9] - 其他安全:超速告警、红绿灯提醒、自适应防眩目矩阵 [10] - 侧向安全能力 [11] 技术定位与用户提醒 - 公司明确强调辅助驾驶不是自动驾驶 [6] - 提醒用户驾驶时仍需时刻保持专注 [6][10]
理想2025广州车展视频版/图文压缩版
理想TOP2· 2025-11-21 12:22
公司愿景与产品理念 - 公司愿景是活成自己真正喜欢的样子 [1] - 优秀智能驾驶的评判标准包括选对路、速度对、舒适度、安心感、可沟通、高效率 [1] 智能驾驶运营数据 - 两个月内视觉智能驾驶里程达3.12亿公里,里程渗透率提升2.2倍 [3] - 日活跃用户提升3倍,有5000多名用户单日行驶里程达1000公里 [3] - 累计拥有52万AD Max用户 [3] 技术进展与功能更新 - 通过强化学习技术优化智能驾驶表现,新版本即将推送 [6] - 在理想充电站,除下车插枪外其余充电步骤均可实现自动化 [6] - 计划在2026年1月、2月、3月分别有1400、2400、2900座充电站具备全自动充电能力 [6] - 累计避免潜在碰撞事故1132万次,避免极端烈性事故14034次 [9] - 夜间主动避险达208万次 [9] - AES功能新增防御性加速避让和防御性加速前进 [9] - 未来将具备360度全方向AES能力 [9] 产品路线图与功能推送 - 城市NOA功能不久将面向AD Pro焕新版用户推送 [13] - 今年后续将有更多OTA更新内容 [11]
小米HAD增强版辅助驾驶发布:引入强化学习与世界模型,AES紧急转向功能上车
凤凰网· 2025-11-21 10:33
公司战略与投入 - 公司正式发布小米HAD增强版并披露智能驾驶领域最新研发进展与人才布局 [1] - 公司在AI领域的战略投入持续加码,2025年仅AI研发投入预算就将超过70亿元 [1] - 公司目前的辅助驾驶专家团队规模已达1800人,其中包含108名博士 [1] 核心技术架构 - 小米HAD增强版基于原有的1000万clips训练基础,核心变化在于引入强化学习算法与世界模型 [1] - 公司采用“端到端”技术路径提升驾驶表现,通过世界模型在数字空间生成极端天气、复杂路况等场景进行算法训练 [1] - 该世界模型技术已获得ICCV和NeurIPS等国际学术会议的认可 [1] 功能性能优化 - 新版本重点优化纵向与横向控制体验,通过大模型预测旁车加塞意图以减少过度减速和急刹车 [2] - 系统在复杂路口(如右侧左转车道)的路径规划上展现出更强的导航理解与绕行能力 [2] - 公司正式推出AES紧急转向辅助功能,可在AEB无法避免碰撞且环境安全时自动触发变道避险,支持速度区间为80km/h至135km/h [2] 安全功能升级 - 前向AEB生效范围扩展至1km/h至135km/h,新增对防撞桶、水马、柱子及墙壁等异形障碍物的识别能力 [2] - 后向AEB覆盖1km/h至30km/h的倒车场景,安全辅助功能灵敏度经过反复平衡以兼顾刹停准确性与减少误触发 [2] 系统部署与推送 - 本次发布的智驾更新将包含在小米HyperOS 1.11.0版本中 [2] - 由于审核进度差异,不同车型的推送时间可能会略有不同 [2]
工业界算法专家带队!面向落地的端到端自动驾驶小班课
自动驾驶之心· 2025-11-21 08:04
端到端自动驾驶技术行业需求与挑战 - 端到端技术已成为车企量产核心招聘岗位 但市场上面向量产的真正人才极为稀缺[1] - 端到端岗位要求全栈能力 涵盖模型优化 场景优化 数据优化以及下游规划兜底等多个环节[1] - 行业当前需攻克导航信息引入 强化学习调优 轨迹建模与优化等量产一线难题[3] 端到端量产课程核心内容 - 课程设计历时三个月 聚焦从实战到落地的进阶内容[3] - 核心算法覆盖一段式端到端 两段式端到端 导航信息量产应用 开闭环强化学习 扩散模型+强化学习 自回归+强化学习 时空联合规划等[5] - 课程重点在于面向就业与直击落地 仅开放35个招生名额[5] 课程详细大纲 - 第一章:介绍感知模型一体化架构与规控学习化方案 分析任务合并与模块设计[10] - 第二章:讲解两段式框架建模 感知与PNC信息传递 优缺点 并以PLUTO算法实战[11] - 第三章:分析一段式框架优势 学习VLA VAD等基于diffusion的方法 实现信息无损传递[12] - 第四章:解析导航地图格式 内容 及其在端到端模型中的编码与嵌入方式[13] - 第五章:从模仿学习过渡到强化学习 讲解RL算法及训练策略以解决场景泛化问题[14] - 第六章:进行nn planner项目实战 结合模仿学习与强化学习 涵盖扩散模型与自回归算法[15] - 第七章:介绍时空联合规划等轨迹平滑优化算法 作为模型输出不准时的兜底方案[16] - 第八章:分享数据 模型 场景 规则等多视角的量产经验 提升系统能力边界[17] 课程师资与安排 - 讲师王路拥有C9本科及QS50 PhD背景 发表多篇CCF-A/B论文 现任国内顶级Tier1算法专家 具备大模型 世界模型等前沿算法预研与量产经验[6] - 课程面向具备BEV感知 视觉Transformer 强化学习 扩散模型 Python/PyTorch等基础的进阶学员 需自备4090及以上算力GPU[18][19] - 课程采用离线视频教学 辅以VIP群答疑及三次线上答疑 自11月30日开课 预计三个月结课 按周解锁各章节内容[20]
基于准确的原始材料对比小鹏理想VLA
理想TOP2· 2025-11-20 18:42
小鹏汽车自动驾驶技术架构 - 技术核心为拆掉中间的Language层,采用Vision和Language联合输入的语料,认为中间的L影响数据使用效率和scaling up [1][3][5] - 架构使用Latent CoT作为隐空间进行生成和diffusion,侧重世界模型理解物理世界运行规律以输出动作 [3] - 明确没有纯粹Language语料,VL联合语料具体训练方式未解释 [1][5] - 自动驾驶能力取决于数据规模和使用效率,最难数据为corner case,海外泛化性不错 [3][4] - 目前未做Agent,计划2026年基于该架构在广州进行L4级Robotaxi测试 [4] - 强化学习在现有架构中非核心,仅被提及两次,涉及未来需解决如何使强化学习更通用等问题 [6] - 对技术路线存在模糊点,包括scaling持续程度、安全下限、超级对齐有效性及定制化影响等 [5] 理想汽车VLA训练体系 - 训练分三个阶段:预训练云端32B VL基座模型、后训练引入Action转为接近4B参数量VLA、强化学习阶段优化驾驶行为 [8][10][11][13][14][15] - 预训练VL基座包含3D视觉、清晰度提升3-5倍的高清2D视觉、驾驶相关Language语料及VL联合语料(如导航信息与人类判断同步记录) [10] - 为适配车端算力,将32B云端模型蒸馏为3.2B的MoE模型以保证推理速度 [11] - 后训练采用短链条CoT限制在2-3步以内,并加入Diffusion预测未来4-8秒轨迹和环境 [13] - 强化学习分两部分:RLHF实现与人类驾驶习惯及安全对齐;纯强化学习利用世界模型生成数据,基于舒适性(G值)、无碰撞、遵守交规三大指标自我进化,目标超越人类驾驶水平 [14][15][19] - 司机Agent分层处理指令,通用短指令由端侧VLA直接处理,复杂长指令上传至云端32B VL基座模型处理后交由端侧执行 [16][17] 行业技术路线共识与差异 - 小鹏与理想均将VLA、VLM、世界模型等视为端到端体系架构,本质均为Physical AI,技术方向大同小异 [5] - 关键差异在于理想VL基座明确包含驾驶相关纯Language语料,而小鹏强调没有纯粹L语料 [1][2] - 理想认为交通领域是VLA最早落地场景,因规则清晰、控制自由度低(2-3个)、易于模仿学习及强化学习反馈明确 [18][19] - 理想预计2025年底至2026年初强化学习闭环后实际体验将有显著提升 [2]
“最强具身VLA大模型”,究竟强在哪儿?
36氪· 2025-11-20 15:38
模型性能与突破 - 机器人基础模型π*0.6在执行制作意式浓缩咖啡、折叠衣物、组装包装纸箱等任务时,成功率均达到90%以上[1] - 模型表现出极高的稳定性,能够连续13小时制作咖啡、连续2小时折叠衣物而无需人为重置[23] - 在最难的任务中,RECAP方法将任务吞吐量提高了一倍以上,并将任务失败率降低了约2倍,相比于仅进行监督微调的模型[20] 核心方法与技术 - π*0.6的核心贡献在于提出了一种通用训练方法RECAP,即基于优势条件策略的经验与纠偏强化学习[8] - RECAP方法包含三个阶段:离线强化学习、使用人类示范进行微调、以及结合自主经验和专家在线纠偏的在线阶段[10] - 该方法采用“优势条件化”策略,通过价值函数判断动作质量,再将策略更新转化为大模型擅长的监督学习问题,而非传统的策略梯度方法[13] - 模型架构方面,π0.6的Backbone从Gemma扩展到Gemma3,参数量达4B,Action Expert参数量升级到860M[20] 学习机制创新 - RECAP方法彻底扭转了机器人只会逼近"真值"的模仿学习模式,让机器人能从自己的错误中成长[3] - 该方法通过教练式纠偏,当机器人犯错时专家示范如何恢复,弥补了传统模仿数据的不足,是防止错误累积的关键[27][28] - 通过训练价值函数来解决信用分配问题,帮助机器人识别关键步骤与错误来源,使其具备从经验中变强的能力[31][39] - 优势条件化训练让模型在保留全部经验的前提下,从失败中学习,表现超越单纯示范数据的水平[42]
Z Tech | LMSYS 团队发布大规模  MoE 强化学习框架 Miles,不积跬步无以至千里
Z Potentials· 2025-11-20 12:12
文章核心观点 - LMSYS团队正式推出Miles,这是一个专为企业级大规模MoE训练及生产环境工作负载设计的强化学习框架[1] - Miles从轻量级框架slime分叉而来,在继承其轻量级与高可定制性基础上,针对新一代硬件(如GB300)与大规模MoE进行了深度优化[1] - 该框架引入了Infrastructure-level的True On-Policy、投机训练以及更极致的显存管理机制,旨在为追求高可靠性与大规模部署的团队提供流畅且可控的RL训练体验[1] 从slime出发的技术传承 - Miles完整继承了slime框架的轻量与模块化设计原则,已成为众多模型科学家探索算法的首选工具[3] - 采用True On-Policy策略,结合Flash Attention 3和DeepGEMM,实现了训练与推理的严格一致性[3] - 引入MTP Online Training的投机采样,在训练过程中对Draft Model进行在线SFT,解决了分布偏移问题[3] - 实施极致的显存优化,包括NCCL显存余量控制、部分Offloading及Host峰值内存节省,大幅减少大规模MoE训练中的OOM风险[3] 生产级核心技术突破 - 通过kernel层面优化实现True On-Policy,训练与推理之间的mismatch被精确地降至零[5] - 利用Flash Attention 3、DeepGEMM以及Batch invariant kernels,结合torch compile技术,确保结果的位级一致性[5] - 对SGLang和Megatron的全栈优化提供原生支持,紧跟推理与训练框架的快速迭代[6] - 算法、数据、采样与评估四大组件完全解耦,研究人员仅需极少的代码修改即可插入新的Agent类型或奖励函数[6] 大规模MoE显存优化 - 创新性地在RL过程中对Draft Model进行在线SFT,相比冻结MTP基线实现了25%以上的Rollout加速[9] - 引入传播机制以规避良性OOM导致的错误,实现显存余量机制以修复NCCL导致的OOM[10] - 修复FSDP中的额外显存占用问题,支持基于Move的部分Offloading以及Host端峰值内存节省策略[10] - 支持带Sequence Packing和Context Parallel的MTP,处理Loss Mask的边缘情况,实现LM Head/Embedding的梯度隔离[11] 未来路线图与社区愿景 - 未来开发路线图包括增强FSDP后端以提升大规模分布式训练的稳定性[14] - 计划允许Rollout子系统脱离框架独立部署,适应更灵活的集群调度[14] - 将新增更多监控指标、Post-hoc分析器及增强型Profiler等调试工具集[14] - 扩展对Multi-modal模型的支持,兼容SGLang Spec v2以获得更高性能,推进EAGLE3等更先进的投机训练技术[18]