Workflow
自动驾驶之心
icon
搜索文档
AnchDrive:一种新端到端自动驾驶扩散策略(上大&博世)
自动驾驶之心· 2025-09-26 15:50
端到端多模态规划已成为自动驾驶领域的变革性范式,能有效应对行为多模态问题及长尾场景下的 泛化挑战。 本文提出端到端框架AnchDrive,该框架可有效引导扩散策略(diffusion policy),以降低传统生成 模型的高计算成本。 与从纯噪声开始去噪不同,AnchDrive利用丰富的混合轨迹锚点(hybrid trajectory anchors)为规划器 初始化。这些锚点来源于两个互补的数据源:一是包含通用驾驶先验知识的静态词汇表,二是一组 动态的、具备情境感知能力的轨迹。其中,动态轨迹由Transformer实时解码生成,该Transformer可 处理密集型与稀疏型感知特征。随后,扩散模型通过学习预测轨迹偏移分布来优化这些锚点,从而 实现精细化调整。这种基于锚点的引导式设计,能够高效生成多样化、高质量的轨迹。在NAVSIM 基准测试中的实验表明,AnchDrive达到了新的性能上限(state-of-the-art),并展现出强大的泛化能 力。 更多关于端到端自动驾驶、VLA、世界模型的前沿技术,欢迎加入『自动驾驶之心知识星球』! 一、引言 近年来,端到端自动驾驶算法受到广泛关注,其相较于传统基于规 ...
29.88万的ES8,蔚来终于开窍了...
自动驾驶之心· 2025-09-26 11:45
全新ES8产品策略 - 定位大型纯电旗舰SUV 车身尺寸5280×2010×1800mm 提供6座/7座布局[11] - 起售价29.88万元 较预售价再降1万元 体现价格竞争力[8][9] - 搭载102度电池包 CLTC续航达635公里 配备可充可换补能体系[13] - 标配零重力座椅/数字座舱/天琴九霄音响/冷暖冰箱等豪华配置[16] ET9产品定位 - 定价81.8万元的地平线特别版 定位豪华电动天花板[22] - 通过重新打磨外观腰线比例和拼色内饰设计体现东方审美[24][25] - 代表品牌技术自信与极致体验追求 面向高端细分市场[21][28] 双产品线战略意义 - ES8实现豪华配置普惠化 从"少数人特权"转向"多数人选择"[17][20] - ET9保持品牌高度与技术引领 展现创新投入决心[27][34] - 普惠车型保障4万台年产能 支撑市场规模与盈利基础[40] - 双线战略相辅相成 共同推动2025年四季度盈利目标[39] 市场反应与用户基础 - 发布会设置21:30前订车权益 有效刺激现场下单转化[1][19] - 现有用户群体包含ET5T与ES8双车型持有者 品牌忠诚度高[30] - 十年积累换电网络与用户社群构成核心竞争壁垒[37]
有一定深度学习基础,该如何入门自动驾驶?
自动驾驶之心· 2025-09-26 07:33
欢迎添加小助理咨询活动详情! 平台课程八折优惠券 超级折扣卡!课程享受七折优惠 自动驾驶的技术栈更新实在是太快了!三年前还是BEV,两年前是无图,一年期是端到端,今年是VLA和世界模型,下一步是什么呢?现在入行怎么才 能保证毕业不会被淘汰? 其实没什么捷径,只有持续不断的更新自己的认知,这条最困难但却是最正确的路。 所以我们平台搭建了自动驾驶、具身智能和大模型三个平台,在变化中不断摸索前行的道路并反过来提升自己。别盼着稳定,要在变化里找新机会。 我们也在尽自己最大的力量推动行业的进步,如果你也想和我们一起前行,欢迎关注我们国庆节&中秋节的活动!喜逢国庆和中秋节节日,我们推出了今 年最大的优惠活动给大家,欢迎微信咨询小助理。 这一个月柱哥收到了很多的咨询,最具代表性的是:有一些深度学习的基础,怎么才能高效入门自动驾驶? 星球优惠!新人七折续费五折 星球核心内容一览! 自动驾驶之心 知识星球 技 最前沿的 自驾技术社区 术 f 7 P 7 5 r 6 自动驾驶VLA 世界模型 闭环仿真 扩散模型 BEV感知 --- 近40+学习路线 保持活力,持续学习 交 学术界&工业界 大佬面对面交流 4 r r VLA和WA ...
如何向一段式端到端注入类人思考的能力?港科OmniScene提出了一种新的范式...
自动驾驶之心· 2025-09-26 07:33
如何向一段式端到端注入人类思考的能力? 人类视觉能够将2D观察结果转化为以自身为中心的3D场景理解,这一能力为理解复杂场景和展现自适应行为提供了基础。然而当前自动驾驶系统仍缺乏 这种能力—主流方法在很大程度上依赖于基于深度的三维重建,而非真正的场景理解。 为解决这一局限,港科、理想和清华的团队提出一种全新的类人框架OmniScene。 首先本文引入OmniScene视觉-语言模型(OmniVLM),这是一种结合 环视感知与时序融合能力的VLM框架,可实现全面的4D场景理解。其次通过师生结构的OmniVLM架构与知识蒸馏,将文本表征嵌入3D实例特征中以实 现语义监督,既丰富了特征学习过程,又明确捕捉了类人的注意力语义信息。这些特征表征进一步与人类驾驶行为对齐,形成更贴近人类认知的"感知-理 解-行动"架构。 此外本文提出分层融合策略(HFS),以解决多模态融合过程中模态贡献不平衡的问题。该方法能在多个抽象层级上自适应校准几何特征与语义特征的相 对重要性,实现视觉模态与文本模态互补信息的协同利用。这种可学习的动态融合机制,使得异质信息能够被更细致、更有效地挖掘。 本文在nuScenes数据集上对OmniScene ...
从现有主流 RL 库来聊聊RL Infra架构演进
自动驾驶之心· 2025-09-26 07:33
强化学习在大模型发展中的核心作用 - 强化学习已从辅助技术跃升为驱动大模型能力跃迁的核心动力 正经历从单轮静态任务向多轮交互式智能体训练的关键范式转移 目标是构建能在复杂动态环境中通过多步观察思考行动与反馈完成任务的智能体 这是通往AGI的关键一步[2] - 强化学习正在重塑大模型能力边界 不仅是弥补数据瓶颈的利器 更是构建下一代通用智能体的核心方法论 背后依赖日益成熟的RL基础设施生态[2] 现代RL基础设施架构范式 - 核心架构围绕Generator和Trainer两大组件 Generator负责让LLM与环境交互生成轨迹并计算奖励 计算开销大 设计灵活性和环境抽象能力至关重要 Trainer负责根据轨迹数据使用PPO和GRPO等算法更新模型参数 性能取决于分布式训练后端如FSDP DeepSpeed Megatron[6] - 生成器-训练器架构配合Ray等分布式协调层构成大模型强化学习系统的黄金标准 RL训练计算成本极高 涉及大规模并行推理和参数更新 优秀RL库需高效稳定可扩展地协调这两个阶段[6] Primary Development框架 - TRL是Hugging Face官方推出的最开箱即用的RL框架 更像训练器集合而非复杂分布式系统 算法支持包括SFT PPO DPO GRPO IPO KTO Online DPO REINFORCE++等 集成transformers库 支持vLLM加速Rollout 训练后端依赖accelerate库 支持DDP DeepSpeed ZeRO FSDP API简洁文档丰富 适合快速原型和中小规模实验 但不支持环境交互 生成与训练耦合紧[9][10][14] - OpenRLHF由OpenLLMAI 字节 网易等联合开发 旨在提供高效可扩展的RLHF和Agentic RL框架 训练后端基于DeepSpeed ZeRO-3和Auto Tensor Parallelism 代码结构清晰 是许多二次开发框架的基础[11][15] - veRL由字节Seed团队开发 是功能最全面算法支持最广泛的框架之一 算法支持包括PPO GRPO GSPO ReMax REINFORCE++ RLOO PRIME DAPO DrGRPO等 架构采用HybridFlow控制器 支持多轮训练和工具调用 目前生成与训练耦合 后续规划异步解耦 集成vLLM和SGLang等推理后端 训练后端支持FSDP/FSDP2和Megatron-LM 奖励支持模型奖励和函数规则奖励如数学代码 追求全能 涵盖所有主流RL算法和应用场景 是前沿算法研究和复杂任务如多模态多智能体实验的理想选择 配置较复杂[16][22] - AReaL由蚂蚁开源 专为大规模高吞吐推理模型RL设计 核心是完全异步架构 算法支持包括PPO GRPO REINFORCE++ RLOO DPO IPO KTO等 架构支持异步Pipeline RLHF和异步Agentic RL模式 后者通过Agent类API支持多轮对话 深度集成vLLM用于高吞吐Rollout 核心创新是完全异步设计 通过可中断Rollout Worker经验回放缓冲区和并行奖励服务将生成与训练彻底解耦 使用SGLang进行Rollout Ray进行集群管理 训练后端主要使用PyTorch FSDP 也支持Megatron 为追求极致训练效率和可扩展性而生 其轻量版AReaL-lite提供更易用API[20][21][28] - NeMo-RL是NVIDIA官方推出的面向生产的RL框架 集成在NeMo生态系统中 与NVIDIA硬件GPU和软件栈CUDA TensorRT深度集成 提供从RM训练到PPO的端到端Pipeline 设计优雅接口定义清晰 性能和扩展性兼顾[24][29] - ROLL是阿里开源专注于大规模LLM RL的框架 强调异步和Agentic能力 算法支持集成了GRPO PPO REINFORCE++ TOPR RAFT++ GSPO等多种先进RL算法 架构采用基于Ray的多角色分布式设计 将策略生成价值评估奖励计算等任务解耦到独立Worker角色中 实现灵活资源调度异步训练和复杂任务编排 深度集成SGLang和vLLM作为高性能推理后端加速策略生成Rollout 训练后端主要基于DeepSpeed ZeRO和Megatron-LM 5D并行 未来支持FSDP2 奖励通过模块化奖励工作者RewardWorker处理奖励计算 支持验证器沙盒LLM-as-judge等多种奖励源 构建灵活奖励路由机制 面向多样化用户 高度可配置接口丰富[30][36] - slime由清华智谱开源 是轻量级专注于将SGLang与Megatron无缝连接的框架 架构强调可扩展性和生产级编排 支持异步Rollout非Colocate放置等 训练后端支持Megatron-Core和DTensor FSDP2 集成支持使用TensorRT-LLM和vLLM进行rollout 通过自定义数据生成接口和服务端引擎实现任意训练数据生成流程 支持异步训练和Agentic工作流 追求极简主义与高性能[34][35][40] Secondary Development框架 - Agentic RL智能体强化学习框架包括verl-agent基于veRL构建 专门为Agentic RL优化 支持异步Rollout和训练 以及agent-lightning实现训练与推理解耦 更容易支持多智能体训练 关键技术包括异步生成经验回放环境接口标准化[46][47][49][50][52] - Multimodal RL多模态强化学习框架包括VLM-R1和EasyR1基于veRL开发 用于训练视觉语言推理模型 以及DanceGRPO专门用于扩散模型如文生图的RL训练 关键技术包括多模态数据加载器跨模态奖励设计如CLIP分数针对扩散模型的特殊采样策略ODE/SDE转换[54][55][57][58] - Multi-Agent RL多智能体强化学习框架包括MARTI由清华C3I提出的首个高性能开源LLM多智能体强化训练与推理框架 通过统一框架整合多智能体推理与强化学习 结合高性能引擎与灵活架构 为复杂协作任务提供高效可扩展解决方案 兼容单智能体RL框架如OpenRLHF veRL 支持vLLM 以及Agent-Lightning其解耦设计便于扩展到多智能体场景 关键技术包括集中训练分散执行CTDE基于自然语言的信用分配如LLaMAC多智能体策略优化如MAGRPO[60][62][63] RL基础设施发展趋势 - 标准化与模块化 RL基础设施正从手工作坊走向标准化流水线 框架设计越来越模块化 将Rollout Reward Train等环节解耦 便于复用和扩展 库不再绑定单一推理后端 支持vLLM SGLang等[65] - 异步化成为大规模RL必备特性 为应对Rollout和Train之间巨大计算不对称性 异步架构如AReaL OpenRLHF slime等已成为关键[65] - 推理引擎至关重要 vLLM和SGLang等高性能推理引擎的出现极大加速了Rollout过程 成为现代RL框架标配[66] - 从RLHF向Agentic RL演进 早期库如TRL主要为单步任务设计 新一代库内置强大环境抽象以支持复杂多步交互[66] - 分布式训练框架选择 Megatron-LM在超大规模模型训练中性能最佳 FSDP/FSDP2因与PyTorch集成好广受欢迎 DeepSpeed在内存优化上表现出色 成熟库通常支持多种方案[66] - 场景驱动的二次开发 通用框架如veRL OpenRLHF为生态奠定基础 针对特定场景如多模态多智能体GUI的二次开发框架解决垂直领域独特挑战[66] - Orchestrator重要性由于RL涉及多个分布式组件如训练框架推理框架环境 使用Ray等进行任务编排资源管理和容错已成为行业共识[66]
超高性价比3D扫描仪!点云/视觉全场景厘米级重建
自动驾驶之心· 2025-09-26 07:33
每秒20万级点云成图,70米测量距离,360°全域覆盖,支持20万平米以上的大场景,扫描可选配3D高斯数据采 集模块,实现高保真实景还原。支持跨平台集成,配备高带宽网口及双USB 3.0接口,为科研实验提供灵活扩展 空间。降低开发门槛,助力开发者快速掌握研发能力,开启更多可能。 GeoScan S1设备自带手持Ubuntu系统和多种传感器设备,手柄集成了电源,可通过D-TAP转XT30母头输出至 GeoScan S1设备本体,给雷达、摄像头以及主控板提供电源。 基础版重建效果一览! 使用门槛低 :操作简单直观,一键启动即可 执行扫描作业 扫描结果导出即用 :无需复杂部署和繁琐处理,扫 描结果导出即用 高效率高精度建图 :模型精度高,行走之间轻松扫 描大场景 业内最优惠价格 :性价比高,高度 集成多传感器, 往下翻~ 最强性价比3D激光扫描仪 面向工业场景和教研场景的 超高性价比3D扫描仪来了!GeoScan S1是国内目前最强性价比实景三维激光扫描 仪,轻量化设计,一键启动,便可拥有高效实用的三维解决方案。以多模态传感器融合算法为核心,实现厘米级 精度的三维场景实时重构。可广泛用于多种作业领域。 重磅!3DG ...
打算招聘几位大佬共创平台(4D标注/世界模型/VLA/模型部署等方向)
自动驾驶之心· 2025-09-25 15:36
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 岗位要求 QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); ...
车圈一个月48位高管变动,新一轮的变革要开始了......
自动驾驶之心· 2025-09-25 11:45
车企的新一轮变革已经拉开了帷幕。 这一个月车企48位高管变动。理想把智驾团队拆成 11 个二级部门,比亚迪从斑马挖来 CTO 搞座 舱,长安汽车的高层也正经历大变动,连蔚来的任少卿都一边在公司管自动驾驶,一边去中科大搭 实验室了。 整个自动驾驶行业在"踩油门" 变方向,老话说的透彻, 这个世界上唯一不变的恰恰就是变化本身。 对于搞算法的同学来说,更是深有感触。三年前还是BEV,两年前是无图,一年期是端到端,今年 是VLA和世界模型,下一步是什么呢?在人工智能这条大的赛道上,什么才是算法岗位真正的活力 和壁垒? 柱哥认为是持续不断的更新自己的认知,要敢于跳出自己的舒适圈。 这一个月,柱哥和很多学术界&工业界的小伙伴进行了交流。有打算转行具身、转行Agent的,有研 一想做自动驾驶摸索方向的,也有车企大佬在联系柱哥招人攻坚端到端的。 自动驾驶还行不行这个话题总是有不同的答案,每个人都会基于自己的认知做出选择。 所以我们搭建了自动驾驶、具身智能和大模型三个平台,在变化中不断摸索前行的道路并反过来提 升自己。别盼着稳定,要在变化里找新机会。这一个月我们在尝试新的文章风格,开启了第一次星 球内部成员的线上交流活动,也正 ...
深度综述 | 300+论文带你看懂:纯视觉如何将VLA推向自动驾驶和具身智能巅峰!
自动驾驶之心· 2025-09-25 07:33
视觉-语言-动作(Vision Language Action, VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,同时也将视觉-语言模型(Vision Language Models, VLMs)从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。 为此,兰州大学、中科院和新加坡国立大学的团队深入探讨了先进的VLA方法,旨在提供清晰的分类体系,并对现有研究进行系统、全面的综述。文中全面分析了VLA 在不同场景下的应用,并将VLA方法划分为多个范式: 自回归、扩散模型、强化学习、混合方法及专用方法 ;同时详细探讨了这些方法的设计动机、核心策略与实现方 式。 此外,本文还介绍了VLA研究所需的基础数据集、基准测试集与仿真平台。基于当前VLA研究现状,综述进一步提出了该领域面临的关键挑战与未来发展方向,以推动 VLA模型与通用机器人技术的研究进展。通过综合300多项最新研究的见解,本综述勾勒出这一快速发展领域的研究轮廓,并强调了将塑造可扩展、通用型VLA方法发 展的机遇与挑战。 论文标题:Pure Vision Language Action (VLA) M ...
西交利物浦&港科最新!轨迹预测基座大模型综述
自动驾驶之心· 2025-09-25 07:33
摘要与引言 这篇综述探讨了将大语言模型(LLMs)和多模态大语言模型(MLLMs)等大型基础模型应用于自动驾驶轨迹预测的新范式 。这种方法通过整合语言 和情境知识,使自动驾驶系统能更深入地理解复杂的交通场景,从而提升安全性和效率。文章回顾了从传统方法到由 LFM 引入的范式转变,涵盖了车 辆和行人的预测任务、常用的评估指标和相关数据集 。它详细介绍了LLM的三种关键应用方法: 轨迹-语言映射、多模态融合和基于约束的推理 ,这 些方法显著提高了预测的可解释性和在长尾场景中的鲁棒性 。尽管LLM有诸多优势,但也面临计算延迟、数据稀缺和真实世界鲁棒性等挑战 。 图1展示了自动驾驶中"感知-预测-规划与控制"的闭环过程,突出了LFM如何帮助自动驾驶车辆预测其他交通参与者的轨迹 。 论文链接:https://www.arxiv.org/abs/2509.10570 作者单位:西交利物浦大学,澳门大学,利物浦大学,香港科技大学(广州) 图2则以时间线形式展示了轨迹预测方法的演变,从基于物理模型、机器学习、深度学习到最新的LFM方法 。 轨迹预测概述 轨迹预测是自动驾驶的核心技术,它利用历史数据(如位置和速度)以及上下文信 ...