Workflow
强化学习
icon
搜索文档
自动驾驶之心在招募业务合伙人!
自动驾驶之心· 2025-12-14 10:03
行业阶段与平台定位 - 自动驾驶行业已进入下半场 面临行业难点和痛点需要突破 [2] - 平台定位为国内自动驾驶领域创作技术平台 旨在为行业带来价值 [2] 平台发展规划 - 平台计划增加圆桌访谈 实战及工业级课程 咨询等各类输出 [2] - 平台呼吁更多优秀伙伴加入以共同发展 [3] 主要业务方向 - 业务方向涵盖自动驾驶产品经理 4D标注/数据闭环 世界模型 VLA 自动驾驶大模型 强化学习 端到端等多个技术方向 [4] 岗位与业务说明 - 岗位主要面向自动驾驶培训合作 包括面向企业和高校研究院所的B端培训 以及面向学生和求职人群的C端培训 [5] - 岗位职责包括课程开发和原创文章创作 [5]
2025年还存活的自动驾驶公司......
自动驾驶之心· 2025-12-14 10:03
行业现状与趋势 - 智能驾驶行业正处于快速发展与整合阶段,L2级别自动驾驶渗透率正在快速提升,L3级别自动驾驶即将落地,L4级别自动驾驶正在寻求规模上的突破 [2] - 行业技术方向持续演进,包括端到端、视觉-语言-动作模型、世界模型、强化学习等前沿领域仍在快速发展 [2] - 行业经历新一轮洗牌与资源整合,部分公司已退出市场,部分公司正进行合并或收购,同时也有新势力公司涌现 [2] 主要市场参与者分类 - **新势力公司**:主要包括蔚来、小鹏、理想、小米、零跑、滴滴、威马、牛创、极氪、阿维塔、岚图、千里科技、极越等 [4] - **一级供应商**:主要包括华为、百度、大疆、中兴、腾讯、上汽零束、鉴智机器人、Momenta、博世中国、麦格纳、佑驾创新等 [6] - **Robotaxi公司**:主要包括百度、小马智行、上海造父智能科技、文远知行、元戎启行、滴滴、Momenta、轻舟智航、驭势科技等 [8] - **Robotruck公司**:主要包括卡尔动力、智加科技、赢彻科技、小马智行、主线科技、斯年智驾、西井科技、飞步科技、牧月科技、挚途科技等 [10] - **无人配送公司**:主要包括美团、九识智能、京东、苏宁、阿里菜鸟、中国邮政、百度Apollo、威盛电子、新石器、白犀牛等 [12] - **传统主机厂**:主要包括上汽、长安、广汽、北汽、一汽、长城、比亚迪、吉利、东风、奇瑞等 [14] - **农用自动驾驶公司**:主要包括丰疆智能、中联重科、中国一拖、悟牛智能、中科原动力、雷沃重工等 [16] - **矿区自动驾驶公司**:主要包括易控智驾、踏歌智行、慧拓智能、路凯智行、伯镭科技、盟识科技、清智科技等 [18] - **环卫自动驾驶公司**:主要包括智行者、酷哇、仙途、高仙机器人、深兰科技、浩睿智能、于万智驾、云创智行等 [20] - **自动泊车公司**:主要包括百度、追势、德赛西威、东软睿驰、禾多科技、纽励科技、恒润科技等 [22] - **高精地图公司**:主要包括百度、高德、四维图新、腾讯、华为、滴滴、京东、美团、宽凳等 [24] - **车路协同公司**:主要包括蘑菇车联、觉非科技、百度、华为、大唐高鸿、华砺智行、阿里、海康等 [24] 核心技术课程内容 - 课程涵盖端到端自动驾驶算法的核心内容,包括任务概述、两段式与一段式算法框架及经典算法 [29] - 课程包含导航信息在量产中的应用,涉及导航信息分类、编码及量产经验分享 [29] - 课程讲解自动驾驶中的强化学习,包括其解决的问题、环境配置、算法框架详解及开闭环训练 [29] - 课程涉及端到端轨迹优化技术,包括基于扩散模型和基于子回顾的优化方法,并结合强化学习进行实战 [29] - 课程包含时空联合规划与轨迹打分、搜索算法、横纵向轨迹平滑,并详解线性二次调节器及其迭代算法,分享量产经验 [30] - 课程提供端到端算法的量产经验分享,涵盖模型优化、场景优化与数据优化的思路 [30] 行业人才需求与薪酬 - 端到端自动驾驶算法工程师岗位要求3-5年经验及硕士学历,薪酬范围在每月50-80K,按14薪计算 [31] - 端到端自动驾驶算法部署工程师岗位要求3-5年经验及硕士学历,薪酬范围在每月40-70K,按14薪计算 [31] - 端到端自动驾驶大模型工程师岗位要求5-10年经验及本科学历,薪酬范围在每月30-60K,按16薪计算 [31] - 自动驾驶端到端规划模型算法工程师岗位对经验要求不限但需硕士学历,薪酬范围在每月35-60K,按14薪计算 [31] - 辅助驾驶产品总监岗位要求5-10年经验及本科学历,薪酬范围在每月40-70K [31]
军事医学研究院论文登上Cell头条
生物世界· 2025-12-13 18:00
研究核心观点 - 军事医学研究院的一项新研究通过结合自动化行为追踪和计算建模,首次系统揭示了简单抑郁行为测试中隐藏的复杂认知过程,挑战了当前对抑郁行为测试的传统理解[1][6] 研究背景与现有局限 - 啮齿类动物(小鼠、大鼠)是研究精神障碍神经机制的重要基石,但其无法表达主观体验或完成复杂认知任务,限制了在抑郁症等病症中捕捉认知扭曲和信息处理异常的能力[3] - 为克服局限性,强迫游泳实验和悬尾实验等简化行为模型被广泛用于评估抑郁样行为,主要衡量指标为“不动时间”,并通常被解读为抑郁样行为的标志[3] - 这种对不动时间的狭隘关注忽略了潜在的认知机制,让人质疑这些测试究竟在衡量什么[3] 研究方法与工具 - 研究团队开发了一种名为“游泳挣扎追踪器”的自动化工具,能够以精细的时间分辨率捕捉行为轨迹[3] - 该方法结合计算模型来剖析驱动行为的认知过程[3] 研究关键发现 - 研究表明,小鼠在强迫游泳实验和悬尾实验中的行为遵循强化学习原则,包括学习、后果感知和决策制定[4] - 研究发现,强迫游泳实验和悬尾实验所涉及的行为背后的认知过程有所不同,这挑战了它们可以互换用于交叉验证的假设[4] - 回归分析确定了不同的行为阶段:早期行为主要受学习相关因素的影响,而后期阶段则更多地受到后果敏感性的影响[4] - 这些发现表明,传统的分析可能低估了学习的作用,而过分强调了对后果的敏感度[4] 研究意义与影响 - 该研究为理解抑郁样行为的认知机制提供了新视角,并强调了分析完整行为轨迹的重要性[6] - 这些发现为未来开发更精确的动物行为分析方法和抗抑郁治疗策略提供了重要理论基础[6]
南洋理工&哈佛提出OpenREAD:端到端RL统一认知与轨迹规划
自动驾驶之心· 2025-12-13 10:04
文章核心观点 - 南洋理工大学与哈佛大学联合提出名为OpenREAD的全新框架,旨在通过强化学习全面提升视觉语言大模型在自动驾驶领域的推理与规划能力[4] - 该框架的核心创新在于,通过引入大语言模型作为“评判专家”,将强化学习的应用范围从传统的、可验证的轨迹规划任务,成功拓展至“驾驶建议”、“场景分析”等开放式知识学习任务,实现了高层语义推理与低层轨迹规划的端到端协同强化微调[6] - 实验结果表明,该框架在驾驶知识评测和轨迹规划任务上均取得了当前最优的性能,证明了协同学习驾驶知识与轨迹规划的必要性和有效性[6][17][28] 方法 - **数据准备与冷启动**:为应对开放式知识学习的奖励设计挑战,研究构建了带显式思维链的驾驶知识数据,并将OmniDrive数据集转换为适用于强化学习的“思考+回答”格式[7][8][9]。随后利用带思维链的数据进行监督微调,为模型提供冷启动,使其获得基础的思考与推理能力[12] - **引入大语言模型作为奖励函数**:在强化学习微调阶段,引入Qwen3-LLM作为“评判专家”,由其判断模型生成答案与参考答案是否一致,并给予0或1的奖励[12]。同时,计算生成答案与参考答案的嵌入向量余弦相似度作为额外奖励,形成“专家判断+语义相似度”的双重奖励机制,以鼓励模型输出既正确又简洁的高质量回答[12] - **驾驶知识与轨迹规划的协同训练**:框架将强化学习同时应用于驾驶知识推理与轨迹规划任务[13]。对于轨迹规划,设计了基于轨迹误差的奖励函数,对近距离时间点的误差要求更严格,对远距离误差更宽容,以平衡安全性与规划精度[13]。在训练中,为批次内不同类型的任务分别计算奖励,最后综合用于更新模型参数,促使模型在知识推理与路径规划间建立联系[13] 实验结果 - **协同训练效果验证**:在LingoQA和NuScenes数据集上的实验表明,仅使用轨迹规划任务时,强化学习微调带来的提升有限[17]。随着引入驾驶知识数据进行协同训练,强化学习微调的效果显著增强[17]。在最终使用轨迹规划、伪轨迹分析和LingoQA数据协同训练2个周期后,强化学习微调模型在轨迹平均L2误差、碰撞率和知识评测上均超越了监督微调模型[19]。具体表现为:平均L2误差从监督微调的0.44米降至0.40米,平均碰撞率从0.18%降至0.11%,LingoQA知识评测准确率从68.0%提升至68.8%[19] - **轨迹规划性能对比**:在NuScenes开环评测中,OpenREAD的轨迹规划性能优于多种现有方法[20]。其3秒时的L2误差为0.63米,平均碰撞率为0.11%,在碰撞控制方面表现出色,保证了驾驶安全性[21]。与同样使用GRPO进行强化学习微调的AutoVLA相比,OpenREAD在轨迹误差和碰撞率控制上均更优,突显了引入驾驶知识对下游任务的重要性[20] - **驾驶知识评测对比**:在LingoQA驾驶知识评测中,OpenREAD取得了当前最优的表现,其Lingo-Judge准确率达到68.2%,超过了其他对比模型如ReCogDrive(67.8%)和WiseAD(60.4%)[22]
苹果光速撤回RLAX论文:用了谷歌TPU和阿里Qwen,作者中还有庞若鸣
机器之心· 2025-12-13 09:13
论文事件与核心作者 - 苹果公司一篇关于强化学习框架RLAX的论文在arXiv公开后又被迅速撤稿,具体原因不明,但论文的v1版本已被互联网记录[1][3] - 论文的四名核心作者中,通讯作者Kelvin Zou已从苹果离职加入Meta,另一通讯作者Cheng Leong是已在苹果工作超过13年的AI基础设施主管[8] - 作者名单中还包括六位近期已从苹果离职并加入其他顶尖AI公司的研究人员,他们分别加入了Meta、OpenAI、Anthropic、xAI以及一家隐身创业公司[9] RLAX框架的技术特点 - RLAX是一个专为在大规模分布式TPU集群上高效执行先进强化学习算法而设计的框架[12] - 框架采用参数-服务器架构,实现了训练器、推理工作器和验证器的逻辑分离,以灵活分配计算资源[14] - 系统完全支持抢占式调度,允许在更高优先级任务出现时立即回收TPU资源,而不会导致训练崩溃[15] - 框架提供可编程配置选项,允许用户在在线策略和离线策略强化学习之间灵活选择,通过设置陈旧度界限来控制权重更新频率[16] 实验设置与性能表现 - 实验使用了非苹果自家的硬件与服务:算力底座为1024张谷歌TPU v5p,验证环境调用亚马逊AWS Lambda服务,基础模型采用中国阿里开源的QwQ-32B模型[22][23] - 该实验组合被描述为“美中技术大乱炖”,反映了AI基础设施领域的实用主义倾向以及国产模型在代码推理领域的强大影响力[26] - 实验结果显示,RLAX仅用12小时48分钟,在1024个TPU v5p上将QwQ-32B模型的pass@8准确率提高了12.8%,同时在训练期间保持了对任务抢占的鲁棒性[24] 关键技术挑战与解决方案 - 论文披露了一个由bfloat16浮点数格式的非结合律特性引发的严重Bug:在TPU训练中,理论上应恒等于1.0的重要性采样比率出现了数值偏差[28][29][32] - 该问题的根源在于,JAX编译器在推理和训练阶段采用了不同的算子融合策略,导致计算顺序的微小差异在bfloat16下被放大,引发训练崩溃[33] - 苹果团队采用的解决方案是在训练器中强制重算,禁用大部分激活值的保存,迫使训练端的计算顺序模仿推理端,从而消除了数值问题[33] 行业与公司意义 - RLAX论文证明了苹果公司在AI基础设施领域拥有世界顶级的工程能力,能够驾驭复杂分布式系统并解决底层数值难题[35] - 论文的发布与撤稿事件,以及多位核心AI人才的流失,成为苹果AI发展当前阶段的一个标志性注脚[36]
全球强化学习+VLA范式,PI*0.6背后都有这家公司技术伏笔
具身智能之心· 2025-12-13 09:02
文章核心观点 - 视觉-语言-动作模型与在线强化学习结合是具身智能领域一个极具前景的技术方向,能够解决仅靠模仿学习导致的泛化能力不足问题,使机器人更鲁棒、更通用 [4][8][50] - 清华大学与星动纪元团队提出的iRe-VLA方法,通过“分阶段冻结参数”和“探索-内化”的循环迭代,有效解决了对大模型直接进行强化学习时面临的稳定性、算力与模型坍塌三大难题,为VLA+RL的落地提供了可行方案 [16][19][48] - 实验证明,iRe-VLA方法在仿真与真实机器人任务中均显著提升了任务成功率与泛化能力,例如将抓取新物体的成功率从35%提升至80%,并在未训练过的物体上实现从37%到61%的成功率提升 [38][43] VLA+RL的重要性与挑战 - **重要性**:仅靠监督微调的模仿学习在遇到未见情况或数据不完美时,机器人会不知所措,而在线强化学习允许机器人通过试错发现更优解,是实现机器人**非常鲁棒、持久工作**的关键 [8] - **挑战一:环境差异**:物理机器人任务周期长、奖励稀疏,与在离线数据集上训练的聊天机器人不同,学习更为困难 [12] - **挑战二:模型坍塌与不稳定性**:直接对数十亿参数的VLA模型进行在线强化学习,极易出现“灾难性遗忘”或训练崩溃,性能可能倒退 [12] - **挑战三:算力负担**:在本地对几十亿参数模型进行全量梯度更新,硬件要求极高,常超出机器人控制器算力极限 [12] 行业解决方案路径 - **第一种:外挂式干预**:训练额外价值函数或小型RL策略来引导冻结的VLA模型生成动作,VLA本身参数不变,**没有真正发生质变** [19] - **第二种:暴力美学**:直接使用PPO等算法全量微调VLA,勇气可嘉但易导致模型坍塌且算力要求高 [19] - **第三种:从探索到内化的循环**:以iRe-VLA为代表,利用监督微调将RL探索出的高价值行为稳定内化为模型的原生能力,是更可行的路径 [13][19] iRe-VLA方法核心架构与流程 - **模型架构**:VLA模型分为**VLM主干**和轻量级**Action Head**,采用LoRA技术避免全量微调 [17][18] - **第一阶段:在线强化学习**:**冻结VLM主干**,仅训练轻量级的Action Head和Critic Head,使训练稳定且计算量小,可在单张4090显卡上运行,让机器人安全探索 [21][26] - **第二阶段:监督学习**:**解冻VLM主干**,对整个模型进行全参数微调,训练数据混合了RL探索出的新成功轨迹与原始专家数据,防止灾难性遗忘,此阶段计算量大,通常在云端A100集群进行 [32] - **循环迭代**:两个阶段交替进行,形成“探索-内化”的持续学习循环 [30] 实验结果与分析 - **训练稳定性**:iRe-VLA训练曲线稳步上升,而标准PPO直接微调VLA则震荡剧烈,甚至性能下降,证明分阶段冻结参数至关重要 [35] - **仿真环境表现**:在MetaWorld和Franka Kitchen基准测试中,iRe-VLA在已学任务上表现大幅提升,例如将成功率从43%提升到83%,并能学会完全没见过的任务 [38] - **真实世界表现**:在Panda机械臂抓取新物体任务中,仅靠SFT的成功率约为35%,经iRe-VLA在线学习后,成功率**飙升到了80%**,且在完全未参与训练的第三类物体上,成功率也从37%提升至61%,显示出强大的泛化能力 [40][43] - **消融实验**:若第二阶段不解冻VLM,模型性能提升将遇到瓶颈,证明解冻大模型参数对掌握复杂技能和提升泛化性是必要的 [45] 方法的意义与优势 - **经济性**:巧妙分配算力,本地进行轻量级探索,云端进行重量级消化,符合实际部署场景 [54] - **持续学习**:使机器人能通过自我探索,在不遗忘旧技能的前提下,不断掌握新物体和新任务的操作技能 [54] - **行业影响**:iRe-VLA是**全球最早将在线RL引入VLA的工作之一**,被Physical Intelligence的π*0.6论文引用,代表了该方向的前沿进展 [19][50]
具身智能之心论文辅导正式推出了,国内最专业的师资来啦!
具身智能之心· 2025-12-12 15:59
公司业务与服务 - 公司正式推出具身智能之心论文辅导服务,提供专业师资支持 [1] - 公司服务覆盖大模型、视觉语言模型、机器人技术等多个前沿研究方向,包括VLA、强化学习、3DGS等 [1] - 公司提供论文全流程指导、实验指导以及申博指导等服务 [4] - 公司服务范围涵盖从顶级会议期刊到毕业设计等多种论文级别,包括CCF-A/B/C类会议、SCI各分区、EI等 [5] 市场表现与成果 - 公司辅导的论文中标率很高,已有多篇被CVPR、AAAI、ECCV等顶级会议和期刊收录 [4] - 公司根据不同论文级别设定不同的辅导价格 [4] 客户咨询与联系 - 公司支持带课题或研究方向进行咨询 [2] - 客户可通过指定微信联系公司进行更多咨询或获取论文辅导内容 [2][6][7]
荣获国家级科技奖一等奖,网易伏羲产学研协同创新获权威认可
搜狐财经· 2025-12-12 12:15
奖项与项目概况 - 网易与天津大学、中国科学技术大学、中国航天科工集团第四研究院十七所合作的项目《基于强化学习的智能决策关键技术及应用》荣获中国图象图形学学会“2025年度中国图象图形学学会科技进步奖-一等奖” [1] - 2025年度中国图象图形学学会科学技术奖共评选出一等奖项目12项,其中科技进步奖4项,二等奖项目21项 [2] - 该项目针对“奖励质量低、经验复用难、环境波动大”三大挑战,提出了三项创新技术,在策略性能、学习效率、跨任务泛化方面达到国际领先水平 [3] 技术应用与落地成果 - 项目技术已应用于网易旗下多款大型商业游戏,并完成了国内首个强化学习技术在大型商业游戏的自动化测试 [4] - 项目技术支撑海思完成了国内首次14nm工艺下全链条EDA工具的国产化替代 [4] - 项目技术落地华为天筹求解器,并助力其性能超越国际领先商业求解器Gurobi [4] - 项目技术支撑完成了多项国防军事智能化任务 [4] - 项目构建的多行业通用智能决策平台在工业基础软件、国防军事、文娱智能、生命健康等领域广泛应用落地 [4] 游戏作为技术试验场 - 获奖项目在网易游戏《逆水寒》中落地,是产学研协同创新的成果 [1] - 网易伏羲实验室通过《逆水寒》在图形技术与人工智能领域进行探索,以游戏AI的创新实践助力数字文娱作品突破边界 [1] - 在2024年9月的云栖大会上,网易展示了《逆水寒》手游的“剧组模式”,该模式由网易伏羲的智能捏脸、智能角色创造等AI技术支撑,助力数百万玩家从内容消费者转型为内容创作者 [3] - 此次获奖彰显了游戏作为前沿技术试验场的独特价值 [3] 行业意义与未来展望 - 图象图形学是支撑多项国家战略需求的关键前沿交叉学科,应用范围涵盖人脸识别、航天卫星视觉导航、国防装备精确制导等 [2] - 中国图象图形学学会是中国在图像图形领域最权威、最具影响力的国家级学术组织 [2] - 此次获奖标志着数字文娱作品的价值与影响已经超越了“玩游戏”的范畴 [2] - 公司表示将继续深耕前沿科技领域,以开放姿态携手合作伙伴,为数字经济发展注入“游戏科技”新动能 [3]
全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔
机器之心· 2025-12-12 11:41
文章核心观点 - 视觉-语言-动作模型与在线强化学习结合已成为具身智能领域极具前景的研究方向,该方法能有效克服单纯模仿学习的局限,使机器人通过试错持续进步并提升鲁棒性 [1][4] - 行业面临将强化学习直接应用于大型VLA模型的三大难点:物理环境探索困难、模型易出现灾难性遗忘与训练不稳定、以及巨大的算力负担 [5][6] - 清华大学与星动纪元团队提出的iRe-VLA方法,通过“分阶段冻结参数”与“探索-内化”循环迭代,为上述难题提供了稳定、经济且高效的解决方案,并在仿真与真实世界实验中验证了其显著优势 [10][13][22] 一、VLA+RL的重要性与背景 - 在具身智能领域,将视觉-语言模型应用于机器人底层控制形成VLA模型,当前主流方法是通过模仿人类专家数据进行监督微调 [2] - 仅靠模仿学习存在局限,当遇到未见情况或专家数据不完美时,机器人表现会受限,难以实现鲁棒、持久的工作 [4] - 在线强化学习允许智能体通过试错发现更优解,超越离线强化学习受限于演示数据质量的瓶颈,是提升VLA模型能力的关键 [4] 二、强化学习应用于VLA的难点 - **环境差异**:与在离线数据集上训练的大语言模型不同,机器人需在物理世界实时探索,且物理任务周期长、奖励稀疏,学习困难 [6] - **模型坍塌与不稳定性**:直接对数十亿参数的VLA模型进行在线强化学习,极易导致“灾难性遗忘”或训练崩溃,性能可能倒退 [6] - **算力负担**:在本地对大型模型进行全量梯度更新,硬件要求极高,通常超出机器人控制器的算力极限 [6] 三、行业解决方案与iRe-VLA方法 - 行业存在三种解决VLA强化学习困境的路径:外挂式干预、暴力美学式全量微调、以及从探索到内化的循环 [7][13] - iRe-VLA方法属于第三种路径,其核心是设计了一个两阶段循环迭代的学习流程,分而治之,动静结合 [10][22] - **模型架构**:VLA模型由负责理解与知识的VLM主干(大脑)和负责输出控制信号的轻量级Action Head(四肢)组成,并使用LoRA技术避免全量微调 [11][12] - **第一阶段(在线强化学习探索)**:冻结VLM主干参数,仅训练轻量级的Action Head和Critic Head,使训练稳定且计算量小,可在单张4090显卡上运行,让机器人探索并找到成功轨迹 [15][18] - **第二阶段(监督学习内化)**:解冻VLM主干,对整个模型进行全参数微调,训练数据混合新探索的成功轨迹与原始专家数据,有效防止灾难性遗忘,此阶段计算量大,通常在云端A100集群进行 [24] - **流程总结**:机器人先在“小参数模式”下大胆探索,找到方法后再在“全参数模式”下把经验固化到大脑中,循环往复 [22] 四、实验结果与分析 - **训练稳定性**:实验显示,直接用PPO算法微调VLA模型会导致成功率曲线剧烈震荡甚至性能下降,而iRe-VLA的曲线稳步上升,证明了分阶段冻结参数对稳定训练至关重要 [27] - **仿真环境表现**:在MetaWorld和Franka Kitchen基准测试中,iRe-VLA不仅在已学任务上表现更好(例如从43%提升到83%),还能学会完全没见过的任务 [30] - **具体数据对比**: - 在MetaWorld的Button-Press-new任务上,SFT策略成功率为0.56,PPO-Replay为0.80,iRe-VLA达到1.00 [31] - 在Franka Kitchen的Slide-door-open任务上,SFT策略成功率为0.86,PPO-Replay为0.96,iRe-VLA达到0.99 [31] - **真实世界挑战**:在抓取未见物体(如茄子、胡萝卜)的任务中,仅靠SFT的机器人成功率约35%,经过iRe-VLA在线学习后,成功率飙升到80% [32][34] - **泛化能力**:训练后的模型去抓取完全未参与训练的第三类物体,成功率也从37%提升到了61% [34] - **消融实验**:如果在第二阶段不解冻VLM主干,模型性能提升会遇到瓶颈,证明了解冻大模型参数对于利用其深层特征掌握复杂技能和提升泛化性是必要的 [35] 五、结论与意义 - **稳定性与经济性**:iRe-VLA方法解决了大模型直接进行强化学习容易训练崩溃的问题,并通过巧妙的算力分配(本地轻量探索、云端重量消化),符合实际部署场景 [37][42] - **持续学习能力**:该方法证明了机器人可以通过自我探索,在不遗忘旧技能的前提下,不断掌握新物体和新任务的操作技能 [42] - **行业影响**:星动纪元的iRe-VLA与海外的PI π*0.6等工作,共同揭示了VLA在线强化学习技术的发展前景,为行业指明了方向 [40]
正式开课!7个Project搞懂端到端落地现状
自动驾驶之心· 2025-12-12 11:02
行业招聘需求与技术趋势变化 - 自动驾驶行业招聘需求正发生变化,两年前热门的感知岗位需求进一步收缩 [2] - 当前行业需求较高的技术方向集中在端到端、视觉语言动作模型和世界模型等领域 [2] - 头部玩家已验证端到端技术路径可行,其他车企正跟进投入人力和资源,从模型、场景、数据优化到下游规划兜底进行布局 [2] - 市场面临合格候选人供给不足的挑战,候选人往往只精通部分技术栈,而相关岗位要求广泛的技术能力 [2] - 具体的量产经验,如导航信息引入、强化学习调优、轨迹建模及优化,是实际落地中的关键痛点和门道 [2] 课程核心定位与内容设计 - 课程名称为《面向量产的端到端实战小班课》,核心重点是聚焦量产应用 [2] - 课程设计历时三个月,包含七个实战项目,从实战到落地层层展开 [2] - 课程核心算法覆盖一段式端到端、两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型结合强化学习、自回归结合强化学习、时空联合规划等 [2] - 课程最终会分享实际的量产经验,目标面向就业与直接落地 [2] - 课程采用小班制,目前仅剩20个招生名额 [2][4] 端到端技术架构演进与核心模块 - 在端到端时代,感知任务的合并与规控算法的学习化已成为绝对主流 [7] - 如何更高效合并感知任务及设计规控的学习化模块是各大公司的核心必备技能 [7] - 两段式端到端框架涉及感知与规划控制的建模及信息传递方式,有其特定优缺点 [8] - 一段式端到端框架可实现信息的无损传递,因此在性能上通常优于两段式方案,具体方法包括基于视觉语言动作模型和基于扩散模型的方法等 [9] - 导航信息在自动驾驶中起引导、选路、选道的关键作用,其地图格式、内容及在端到端模型中的编码与嵌入方式是重要课题 [10] 算法训练策略与量产保障方案 - 仅依靠模仿学习存在局限,因人类驾驶风格迥异且部分极端场景数据难采集,需结合强化学习以学习因果关系并实现泛化 [11] - 课程项目实战涵盖基于模仿学习的算法,并重点介绍基于扩散模型和自回归的算法,在监督微调后会继续讲解强化学习实战 [12] - 在量产落地阶段,为确保轨迹稳定可靠,需有后处理的兜底逻辑,例如通过轨迹平滑优化算法对模型直出结果进行优化 [13] - 时空联合规划是重要的兜底方案,涉及多模态轨迹打分搜索及轨迹平滑等算法 [13] - 量产经验分享将从数据、模型、场景、规则等多个视角,剖析如何选用合适工具和策略以快速提升系统能力边界 [14] 课程安排与学员要求 - 课程面向进阶学员,开课时间为11月30日,预计三个月结课,采用离线视频教学配合VIP群答疑及三次线上答疑的形式 [15] - 课程章节按计划解锁,例如第一章于11月30日解锁,第二章于12月7日解锁,后续章节按周或月间隔陆续开放 [16][18] - 学员需自备图形处理器,推荐算力在4090及以上 [17] - 学员需具备的基础知识包括:熟悉自动驾驶鸟瞰图感知、视觉Transformer、端到端等常见算法;掌握强化学习、扩散模型理论基础;具备一定的Python和PyTorch语言基础;熟悉mmdet3d算法框架;以及一定的高等数学、线性代数和矩阵论基础 [17]