强化学习 - 财报，业绩电话会，研报，新闻

强化学习

搜索文档

自动驾驶之心· 2025-10-17 08:03

端到端自动驾驶技术趋势 - 端到端算法是当前自动驾驶量产的核心算法，技术栈丰富，业内主要存在一段式和两段式两大类范式 [1] - 一段式范式以UniAD为代表，直接从传感器输入建模自车轨迹输出，而二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法可进一步延伸出基于感知、扩散模型、世界模型以及视觉语言模型（VLA）等多种子领域，尤其是基于VLA的算法相关论文正爆发式发表，工业界也在争先量产 [1] 自动驾驶VLA与大模型技术 - 核心算法涉及BEV感知、视觉语言模型（VLM）、扩散模型、强化学习、世界模型等，代表了学术界和工业界最前沿的技术方向 [3] - 自动驾驶VLA与大模型实战课程聚焦VLA领域，内容涵盖从VLM作为自动驾驶解释器，到模块化VLA、一体化VLA，以及当前主流的推理增强VLA [3] - 课程配套理论基础梳理，包括Vision/Language/Action三大模块、强化学习、扩散模型等，并设有大作业章节指导从零搭建VLA模型及数据集 [3] 课程师资与团队 - 课程教师团队包括来自清华大学等顶尖院校的研究人员，在ICCV、IROS、EMNLP等国际顶级会议发表多篇论文，研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等前沿领域 [8][11] - 教师团队具备丰富的自动驾驶、大模型研发和实战经验，例如有教师主持完成多项自动驾驶感知和大模型框架工具，其维护的开源项目总Star数超过2k [8] - 工业界教师团队包括来自国内顶级主机厂的算法专家，拥有CCF-A/B论文发表记录，并主持完成多项自动驾驶感知和端到端算法的产品量产交付，具备丰富的端到端算法研发经验 [12][14] 端到端自动驾驶课程内容 - 端到端与VLA自动驾驶课程由工业界专家带队，聚焦端到端自动驾驶宏观领域，梳理一段式/两段式方向的重点算法和理论基础 [12] - 课程详细讲解BEV感知、大语言模型、扩散模型和强化学习等关键技术 [12] - 课程设计两大实战项目：基于扩散模型的Diffusion Planner和基于VLA的ORION算法 [12] 课程参与要求 - 参与者需要自备GPU，推荐算力在RTX 4090及以上 [15] - 参与者需具备一定的自动驾驶领域基础，熟悉自动驾驶基本模块，并了解transformer大模型、强化学习、BEV感知等技术的基本概念 [17] - 参与者需具备一定的概率论和线性代数基础，熟悉常用数学运算，并具备一定的Python和PyTorch语言基础 [17]

即将开课！自动驾驶VLA全栈学习路线图分享~

自动驾驶之心· 2025-10-16 07:33

自动驾驶VLA行业趋势 - 自动驾驶VLA是学术界和工业界在端到端之后聚焦的核心方向，提供了类人思考能力并通过思维链形式展现决策过程，以实现更可靠和安全的自动驾驶[1] - 行业将自动驾驶VLA划分为三个子领域：模块化VLA、一体化VLA和推理增强VLA[1] - 传统的BEV感知、车道线、Occupancy等方向相对成熟，学术界和工业界关注度逐渐下降，自动驾驶VLA成为各家企业急需攻克的方案[4] - 主流自动驾驶企业，包括智驾方案供应商和车企，均在发力自研自动驾驶VLA[4] 自动驾驶VLA技术核心 - 自动驾驶VLA涉及视觉感知、大语言模型、Action建模、大模型部署、数据集制作等核心内容[6] - 最前沿算法包括CoT、MoE、RAG、强化学习[6] - 模块化VLA强调多阶段pipeline（感知→语言→规划→控制），语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器，实现感知→控制的端到端映射，通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA新增推理模块（如Chain-of-Thought、记忆体、工具调用），同步输出控制信号和自然语言解释，支持长时序规划和因果解释[17] 课程内容与结构 - 课程第一章介绍VLA算法概念、发展历史、开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础，涵盖Vision、Language、Action三个模块基础知识及大模型结合，并以Qwen 2.5VL-72为例讲解开源大模型部署[14] - 第三章讲解VLM作为自动驾驶解释器的经典及最新算法，包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA，重点分析算法动机、网络结构和核心[15] - 第四章聚焦模块化与一体化VLA，配套实战代码学习选取华科和小米最新提出的ReCogDrive，涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等技术栈[16] - 第五章聚焦推理增强VLA，讲解ORION、OpenDriveVLA、DriveMoE、DiffVLA、S4-Driver、FutureSightDrive、AutoVLA、Drive-R1等算法，并配套清华AIR和博世提出的Impromptu VLA实战代码[17][18][19][23] - 第六章设置大作业，要求学员基于ms-swift框架自定义数据集和加载模型，进行训练任务微调，并提供V-L-A各部分代码解读[20] 行业人才培养 - 课程由清华大学教研团队联合开展，旨在推动自动驾驶VLA在学术界和工业界的发展[6][22] - 讲师团队包括在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表论文的清华大学硕士生、QS30高校博士在读研究员，具备丰富的自动驾驶、大模型研发和实战经验[8][9] - 学员需自备GPU，推荐算力在4090及以上，并具备自动驾驶领域基础、transformer大模型、强化学习、BEV感知等技术概念，以及概率论、线性代数、Python和PyTorch基础[24] - 课程为国内首个自动驾驶VLA进阶实战教程，预计两个半月结课，采用离线视频教学配合VIP群内答疑及三次线上答疑的模式[22][23]

波士顿动力狗gogo回来了，“五条腿”协同发力

36氪· 2025-10-15 21:02

核心技术方法 - 采用结合采样与学习的动态全身操作方法，将强化学习与基于采样的控制相结合，使机器人能够执行需要手臂、双腿和躯干协同配合的动态力交互任务[1] - 研究采用分层控制方法，将控制问题划分为两个互补且同步的层级：低层基于强化学习的运动策略直接控制电机力矩，高层根据任务类型采用基于采样的控制或强化学习[2] - 在采样控制中，系统通过并行模拟多个未来情境来寻找最优操作策略，对于需要精确施力的任务会运行32个并行CPU线程，每个线程模拟未来几秒内的不同动作序列[3] - 与直接采样原始轨迹不同，研究在样条曲线空间中进行采样，能生成更平滑、更自然的运动轨迹，同时降低搜索空间的维度[5] 任务执行表现 - 机器狗Spot在轮胎扶正任务中最佳成绩为3.7秒，平均每个轮胎用时5.9秒，几乎达到人类在该任务中的操作速度[11] - 机器狗能够高效搬运重达15千克的轮胎，远超其夹持器的峰值举升能力（11千克）和持续能力（5千克），通过动态协调全身动作拓展了操作范围[13] - 在轮胎滚动任务中，利用强化学习来应对难以精确建模的复杂摩擦与接触动力学，使机器人能够动态调整躯干与手臂位置以稳定控制滚动的轮胎[7][10] 技术优势与创新 - 该方法克服了传统操作策略在不同机器人形态学结构上的迁移限制，实现了机器狗四肢与全身的协调动力学操作[1] - 系统未预设任何固定的操作模式，多肢体、多接触的行为是在采样过程中优化自然涌现的结果，而非通过显式编程设定[5] - 分层控制架构使得高层控制器能够专注于任务完成，无需显式地推理平衡约束或地面接触，显著简化了控制问题[14][15] - 训练过程中引入了随机化，包括对物体的质量、摩擦系数与形状等属性进行随机变化，以解决从仿真到现实的差距[10]