自动驾驶之心
搜索文档
RL训练中,为什么熵减往往意味着训练收敛?
自动驾驶之心· 2025-10-29 08:04
作者 | skydownacai 转自 | RL训练中,为什么熵减往往意味着训练收敛? 原文链接: https://zhuanlan.zhihu.com/p/1950579532802270647 $\frac{1}{2}\pi\pm\pi\pi$, $\frac{1}{2}\pi\pi$, $\frac{1}{2}\pi\pi$, $\frac{1}{2}\pi\pi$, $\frac{1}{2}\pi\pi$, $\frac{1}{2}\pi\pi$, $\frac{1}{2}\pi\pi$, $\frac{1}{2}\pi\pi$, \(\frac{1}{2}\pi\ 本文只做学术分享,如有侵权,联系删文 ,欢迎添加小助理微信AIDriver004做进一步咨询 最近半年以来,有关于RL+Entropy的研究非常的多。对于离散的动作空间 , 策略 在状态 处的entropy为 $${\mathcal{H}}\left(\pi\left(\cdot|s\right)\right):=\mathbb{E}_{a\sim\pi\left(\cdot|s\right)}\left[-\log\pi\left(a| ...
Dream4Drive:一个能够提升下游感知性能的世界模型生成框架
自动驾驶之心· 2025-10-29 08:04
文章核心观点 - 提出了一种名为Dream4Drive的全新3D感知合成数据生成框架,旨在解决现有自动驾驶世界模型在评估合成数据有效性时存在的公平性问题,并显著提升下游感知任务的性能 [1][5][6] - 该框架通过将输入视频分解为3D感知引导图、渲染3D资产并微调世界模型,能够灵活生成大规模多视角极端场景视频,仅需添加不足2%的合成样本即可在相同训练轮次下超越纯真实数据训练的效果 [1][6][27] - 研究构建了大规模3D资产数据集DriveObj3D以支持多样化编辑,并通过大量实验证明该方法在不同训练轮次和分辨率下均能有效提升3D目标检测与跟踪等关键感知任务的性能 [2][27][29][30] 背景回顾 - 自动驾驶感知模型的性能高度依赖大规模人工标注数据,但收集长尾场景数据耗时费力,现有基于扩散模型或ControlNet的世界模型对单个目标的位姿和外观控制能力有限,难以生成多样化合成数据 [4] - 现有合成数据增强方法通常采用“合成数据预训练+真实数据微调”的策略,导致总训练轮次是基准模型的两倍,在训练轮次相同时,混合数据集相比纯真实数据训练并无优势,甚至性能更差 [5] - 视频编辑方法和基于NeRF/3DGS的重建类方法分别存在单视角局限性以及伪影、渲染不完整和视觉不一致等问题,限制了其在环视BEV感知任务中的应用 [4] Dream4Drive算法详解 - 框架核心流程包括将输入视频分解为深度图、法向量图、边缘图等3D感知引导图,将3D资产渲染到引导图上,并通过微调世界模型生成编辑后的多视角真实感视频 [5][8][16] - 采用密集型3D感知引导图而非稀疏空间控制(如BEV地图),结合多条件融合适配器和空间视角注意力机制,确保实例级空间对齐、时间一致性和跨视角连贯性 [8][19] - 训练目标结合了简化的扩散损失、前景掩码损失和LPIPS损失,无需昂贵3D标注,仅依赖RGB视频及可通过现成工具生成的引导图,大幅降低训练成本 [20][21] DriveObj3D资产 - 为支持多样化3D感知视频编辑,设计了一套高效3D资产生成流程,包括使用GroundedSAM进行目标分割、Qwen-Image生成多视角一致图像、Hunyuan3D进行3D网格重建 [22][25] - 构建了大规模3D资产数据集DriveObj3D,涵盖驾驶场景典型类别,其资产生成方法相比Text-to-3D和单视角方法能生成更完整、高保真且风格一致的资产 [9][25] 实验结果分析 - 在下游3D检测任务中,仅添加420个合成样本(<2%真实数据量),在1倍训练轮次下mAP从34.5提升至36.1,NDS从46.9提升至47.8;在2倍轮次下mAP从38.4提升至38.7,NDS从50.4提升至50.6 [27][28] - 在下游跟踪任务中,同等条件下AMOTA从30.1提升至31.2(1倍轮次)以及从34.1提升至34.4(2倍轮次)[27][28] - 在高分辨率(512×768)设置下,性能提升更为显著,mAP提升4.6个百分点(相对提升12.7%),NDS提升4.1个百分点(相对提升8.6%)[29] 消融实验 - 插入位置影响性能,左侧插入优于右侧(mAP提升0.4个百分点,NDS提升0.9个百分点),远距离插入效果优于近距离,因近距离插入可能造成严重遮挡 [37][38] - 3D资产来源影响合成数据质量,使用与数据集风格一致的资产(本文方法)相比Trellis或Hunyuan3D能产生更优的下游任务性能(mAP 40.7 vs 39.8/40.2)[39][41] - 与直接投影的“朴素插入”方法相比,Dream4Drive的生成式方法因能合成阴影、反射等真实感细节,在各项指标上均表现更优 [33][35]
博世Dino-Diffusion:端到端泊车无惧天气影响,解决跨域鸿沟
自动驾驶之心· 2025-10-29 08:04
文章核心观点 - 提出一种名为Dino-Diffusion Parking(DDP)的模块化自动驾驶停车系统,该系统结合视觉基础模型(DINOv2)与扩散模型进行轨迹建模,旨在解决端到端停车模型因天气等视觉变化导致的跨域失效问题 [8] - 该系统在CARLA跨域基准测试中显著优于现有方法,并在3D高斯喷溅(3DGS)环境中验证了其从仿真到现实的迁移潜力,成功率稳超90% [8][33] 自动驾驶停车领域现状与挑战 - 全球近60%的新车已配备某种形式的自动驾驶功能,但停车相关事故占美国所有车辆事故的20%,其中91%发生在倒车过程中,凸显精确感知、规划和控制的重要性 [6] - 自动停车面临空间受限、频繁转向、低速复杂路径规划等独特挑战 [6] - 端到端方法对训练与测试分布的一致性要求高,视觉变化(如天气、光照)会导致策略失效,在跨域迁移时表现不佳 [6] Dino-Diffusion Parking系统方法 - 系统采用模块化、级联设计,解耦感知、规划与控制,避免过拟合 [8][10] - 使用预训练的DINOv2模型提取图像特征并转换为鸟瞰图表示,利用其强大的跨域泛化能力为规划提供稳定输入 [9] - 提出后见目标重标注策略,在训练中对目标位姿进行扰动并重新生成分割图,以提升模型对目标位姿的鲁棒性 [12] - 使用FiLM结构将目标位姿信息融合到BEV特征中,避免梯度传播不稳定 [13] - 将轨迹规划建模为扩散过程,在SE(2)空间中建模以降低误差累积,并使用Stanley控制器进行精准轨迹跟踪 [14][15][18] 实验验证与结果 - 在CARLA模拟器中训练,使用800条专家轨迹,测试环境包括与训练环境一致、轻度域偏移(如云层、降水)和重度域偏移(如低光照、大雾)三种天气设置 [20][21] - DINOv2提取的特征在不同域下保持一致,而传统模型(如EfficientNet)对视觉变化敏感,定量结果显示该方法在多个特征层上误差显著降低 [23] - 通过引入重标注数据,模型能稳定识别目标车位,在视觉变化下保持一致性 [26] - 扩散模型与Stanley控制器结合,在大域偏移下成功率提升16%,轨迹误差更小 [27] - 在由真实停车场重建的3DGS环境中进行零样本测试,系统能部分成功完成停车任务,展现出一定的仿真到现实迁移能力 [31] 未来工作方向 - 引入视频世界模型进一步缩小仿真与现实的差距 [35] - 在3DGS环境中收集人类演示数据进行训练 [35] - 在真实车辆上部署系统,验证其在多样化场景下的表现 [35]
给自动驾驶业内新人的一些建议
自动驾驶之心· 2025-10-29 08:04
社区概况与定位 - 社区名称为“自动驾驶之心知识星球”,是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [1][3] - 社区已运营三年,当前成员规模超过4000人,并计划在未来2年内发展到近万人规模 [1][3] - 社区旨在为初学者和进阶者提供技术分享与交流平台,解决行业壁垒高、试错成本高、缺乏完整学习体系等问题 [1][3] 社区资源与技术覆盖 - 社区内部梳理了超过40个自动驾驶技术方向的学习路线,涵盖感知、规划控制、仿真、端到端驾驶等多个领域 [5][6][14][15] - 资源形式包括近40个开源项目汇总、近60个自动驾驶相关数据集、行业主流仿真平台以及各类技术学习路线 [14] - 提供原创直播课程,内容覆盖感知融合、多传感器标定、SLAM与高精地图、决策规划、数据工程、自动驾驶仿真及端到端与大模型技术等9大系列 [9] 成员构成与合作伙伴 - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校实验室,以及蔚小理、地平线、华为、英伟达、百度等自动驾驶头部公司 [14] - 社区与多家自动驾驶公司建立了岗位内推机制,可帮助成员简历直达心仪公司 [10] - 社区定期邀请学术界与工业界大佬进行直播分享,目前已举办超过一百场专业技术直播 [84] 具体技术内容与问答 - 社区日常讨论问题包括端到端自动驾驶入门、VLA学习路线、多模态大模型数据集、多传感器融合就业前景、3DGS与闭环仿真结合等前沿话题 [7][18] - 技术资料库详细梳理了3D目标检测、BEV感知、扩散模型、世界模型、视觉语言模型、自动驾驶VLA等热点领域的最新综述、方法汇总与开源数据集 [20][37][39][43][45] - 提供“自动驾驶100问”系列实战资料,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制、BEV感知、相机标定等工程化主题 [8]
今年CVPR,自动驾驶还能冲什么方向?
自动驾驶之心· 2025-10-28 08:03
行业趋势与市场定位 - CVPR 2026投稿量已超2000篇,预计将超过ICLR投稿量[1] - 行业研究趋势显示,CVPR 2026主旋律可能是世界模型,紧跟2024多模态和2025视频生成的趋势[1] - 公司专注于自动驾驶、具身智能、机器人等交叉学科,深耕多年并拥有顶尖学术资源[3] 公司服务与产品核心 - 提供论文辅导服务,内容包括掌握技术脉络、复现模型、产出论文初稿及投稿指导,目标冲击高区或顶会[2] - 拥有300多名专职老师,来自全球QS排名前100,发表过多篇顶会/子刊/A会/B会论文,近3年辅导学员超400名,中稿率高达96%[5] - 服务流程包括个性化论文指导、导师实时互动、录播回看及课后答疑,提供从选题到中稿的一站式科研服务[13] 目标客户与学员成果 - 目标客户包括有科研需求、从事人工智能领域工作、考研申博留学等群体[14] - 学员案例显示,辅导周期2-4个月可达成SCI、CCF A/B、顶会等成果,例如某学员在3个月内完成CCF B类论文并投稿emnlp顶会[6] - 学员要求自带简历并有一定PyTorch基础,主要方向涵盖三维重建、SLAM、点云处理、计算机视觉等[10] 服务优势与附加价值 - 解决导师放养、知识零散、缺乏科研体系等问题,帮助建立科研思维并熟悉流程[7] - 优秀学员可获得清北/MIT等名校推荐信,或内推至阿里达摩院、华为诺亚方舟等企业研发岗[19] - 提供精准匹配系统,根据学员研究方向、目标期刊和基础水平筛选3-5位导师,并支持试听和退款承诺[18][19]
自动驾驶春秋的终点
自动驾驶之心· 2025-10-28 08:03
行业竞争格局演变 - 自动驾驶行业正从类似“春秋”的争霸阶段转向类似“战国”的生死存亡阶段,竞争目标从迫使对方承认转变为彻底的兼并和统一 [2] - 竞争已不再是梯队间的排位赛,而是一场生死之战,输家将失去持续研发的资格与资源,最终只有头部玩家能够存活壮大 [3] - 第二梯队及之后的参与者难逃被整合或淘汰的命运 [3] 技术路线分化 - 随着主流厂商掌握BEV、Occ等基础感知能力,行业为寻求突围而探索差异化技术路线,导致技术路径呈现显著分化 [4] - 在传感器选择上,部分团队放弃LiDAR转向纯视觉方案;在地图使用上,分化出众包地图方案和强感知的无图方向 [4] - 规控层面出现时空联合规划算法取代传统分离式算法,并探索端到端设计及“两段式端到端”过渡方案 [4] - 多模态大模型、可微分渲染、强化学习等新技术被寄望于破解长尾场景难题和带来数据生成新可能 [4] 技术成熟度与市场现状 - 尽管新技术名词层出不穷,但实际成熟度尚待打磨,用户体验提升进入平缓期,系统仍受限于大量规则代码与兜底策略 [5] - 高阶智驾功能随供应商方案成熟开始下放至更多入门车型,技术光环褪去,行业竞争回归以价格战为核心的贴身肉搏 [6] - 供应商方案仅需少量对接人员即可提供一线智驾能力,对自研能力未达第一梯队的车企而言,切换供应商是降本甚至提升产品力之举 [6] 数据驱动与行业瓶颈 - 自动驾驶技术陷入平台期的核心原因在于数据驱动的新方案未完全成熟,系统仍严重依赖规则算法,而规则系统的性能天花板已被探明 [7] - Tesla FSD V14的技术分享表明,大量丰富的真实世界数据仍是提升自动驾驶AI水平最关键的要素,仿真数据在细节真实性和丰富多样性上均不及真实数据 [7] - 行业突破瓶颈的关键在于减轻对规则算法的依赖,转向数据驱动范式,否则无法将自动驾驶体验再提高一个台阶 [9]
TeraSim World:用开源方式重建「特斯拉式」世界模型
自动驾驶之心· 2025-10-28 08:03
特斯拉世界模型技术特点 - 神经网络驱动的虚拟世界生成器,根据车辆状态和控制输入实时合成八个摄像头视角的高分辨率视频[2] - 在没有真实相机的情况下预测环境变化,重建连续且空间一致的驾驶画面,支持闭环验证和强化学习[2] - 学习通用的"感知—动作—世界变化"映射,可迁移到机器人等其他平台,成为通用物理智能的基础组件[2] TeraSim World开源框架核心能力 - 在开源条件下实现与特斯拉世界模型同级的生成与评测能力,无需真实地图或传感器背景即可自动生成整个城市环境与交通行为[5] - 基于NeuralNDE和NADE两项奠基性研究,既能再现自然交通行为,又能主动生成突发风险与环境干扰[6] - 模块化全自动数据合成流水线,专为生成端到端自动驾驶所需的真实且安全关键数据而设计[7] 真实地图与交通环境构建 - 用户输入位置或路线后,系统自动从公开地图数据获取当地道路结构和交通情况,识别道路类型并生成数字地图[11] - 从实时交通数据服务自动获取实际车流速度与拥堵状况,模拟符合当地节奏的早晚高峰和拥堵点[13] - 自动检索真实世界道路地图并转换为仿真可用格式,与智能体行为建模后端集成[10] 智能体仿真技术 - 通过学习大量真实驾驶数据生成自然的多车交互行为,如红绿灯前减速、狭窄道路错车、环岛礼让等[16] - 根据真实世界事故概率和强化学习机制自动引入安全关键情境,如前车急停、行人闯红灯等罕见但高风险事件[17] - 输出每个参与者的详细轨迹,描述其在道路上的移动和互动[17] 传感器仿真技术 - 依托NVIDIA开源世界模型Cosmos系列,生成真实感摄像头输入并可扩展到其他传感器类别[18][19] - 使用Google Street View API抓取六个方向街景图像,通过多模态语言模型自动生成语义描述[20] - 生成六个摄像头视角的高分辨率视频,最高分辨率达1280×704,帧率为24 fps,确保跨视角几何对齐和光照一致[25][26] 自动化压力测试框架 - 基于NADE研究成果复现动态风险,并扩展到静态风险和环境风险,如交通锥、施工区域、天气变化等[30] - 系统评估自动驾驶系统在多种复杂环境下的稳定性和安全边界[30] - 支持自动生成和验证不同类型的风险场景[30] 系统应用前景与愿景 - 为自动驾驶安全验证提供可扩展、成本更低的替代方案,减少实车采集和路测需求[31] - 采用开放技术路线,希望成为全球研究者与开发者共享的自动驾驶虚拟试验场[32] - 长期愿景是打造开放的端到端自动驾驶仿真与评测体系,让虚拟道路测试成为实车路测的可靠替代[32]
最新一篇长达76页的Agentic AI综述
自动驾驶之心· 2025-10-28 08:03
文章核心观点 - Agentic AI正经历从“外部流水线”到“模型原生”的范式迁移,其核心能力(规划、工具使用、记忆)正被内化到模型参数中 [1] - 驱动此范式转变的核心是“LLM + RL + Task”统一框架,通过强化学习将预训练、后训练与推理循环结合,使模型从被动组件转变为可从环境互动中学习的目标驱动体 [1][3] - 未来趋势不仅是更高的自治度,更是模型与环境的深度耦合与共生,标志着从“构建会用智力的系统”走向“通过经验自进化的智能” [1][44] 问题背景 - 当前生成式AI多为“反应式输出”,缺乏面向目标的长期推理与环境交互能力 [3] - 早期智能体系统采用流水线范式,将规划、工具使用、记忆三大核心能力放在外部编排中,导致系统脆弱且难以应对非预期情境 [3] - 新范式强调通过端到端训练将核心能力内化进模型参数,使LLM成为主动决策者,其核心驱动力是大规模强化学习在LLM训练中的应用 [3] 面向LLM的RL - 必须使用结果驱动的RL将规划等能力从提示诱导转为参数内化,以解决程序化数据稀缺和分布外脆弱性问题 [6] - 相比监督微调,RL具备动态探索式采样与相对价值学习两大优势,将模型从“被动模仿者”变为“主动探索者” [7][8] - 预训练LLM自带的世界知识与结构先验可实现先验引导的探索,提高样本效率,而语言接口将状态、动作、奖励统一到文本空间,使RL成为跨任务泛化的通用机制 [9][11] - 算法从早期RLHF演进至GRPO、DAPO等结果驱动RL,以提升长程训练稳定性与效率,形成基础模型提供先验、学习算法通过交互精炼能力的统一范式 [12] 核心能力:规划 - 流水线范式将规划视为自动化推理与行动序列搜索,存在传统符号规划可解释但重建模、提示工程对设计敏感且计算成本高等局限 [14][17] - 模型原生范式通过监督学习与强化学习将规划能力直接内化到参数中,摆脱外部搜索器/评估器,提升开放环境下的灵活性与稳健性 [15] - 实现了两次关键迁移:训练方式从SFT转向RL以缓解高质量过程数据稀缺问题;RL内部从“过程奖励”转向“结果奖励”并结合规则型奖励以稳定优化 [18] 核心能力:工具使用 - 早期系统将模型嵌入固定工作流节点,提示法则将决策逻辑写入提示,但存在计算开销大、依赖评估质量等问题 [21] - 模型原生迁移把工具使用的决策内化到参数中,形成模块化训练(只优化规划器)和端到端训练(统一学习计划与执行)两类路线 [21] - 当前挑战包括长动作序列中的信用分配问题,以及工具超时、返回不一致等环境噪声导致的训练不稳定,趋势是细化奖励(轨迹级转向步级)并在动态真实环境中训练以缩小仿真到现实差距 [22] 核心能力:记忆 - 记忆被视为“面向行动的证据治理”,流程包括写入/存储、管理/压缩、检索、利用四职能 [27] - 短期记忆方面,流水线范式通过滑动窗口、压缩摘要和RAG等技术处理,模型原生范式则通过位置编码外推、长序列合成和注意力优化将长上下文能力端到端化 [27][30] - 长期记忆载体分为外部库(混合索引、重排、去重)和模型参数(持续预训练/蒸馏、定点编辑与轻量注入),趋势是推动短期-长期记忆统一及检索与生成的联合训练 [30] 智能体应用发展路线 - Deep Research智能体充当“大脑”,擅长复杂推理和分析;GUI智能体充当“眼睛和手”,模拟人类与图形环境的交互 [3] - 多智能体协作研究涵盖从基于规则的系统到数据驱动的模型原生方法,代表性算法包括MAGRPO、RLCCF、MATPO等 [40] 未来方向 - 当前研究焦点集中于奖励建模、规划、工具使用、自动化验证/红队测试等领域 [41] - 最终发展轨迹是模型与环境更深入的综合,标志着从构建使用智能的系统到增长智能的系统的转变 [44]
输出你的insights!寻找散落在各地的自动驾驶热爱者(产品/4D标注/世界模型等)
自动驾驶之心· 2025-10-27 17:14
公司业务拓展 - 公司收到业内伙伴和企业的诉求 计划在企业培训和求职辅导方向进行业务拓展 [2] - 公司面向全球自动驾驶从业者发出合作邀请 合作领域包括技术服务 培训 课程开发与科研辅导等 [2] - 公司将提供高额酬金与丰富行业资源以推动合作 [3] 合作主要方向 - 合作技术方向包括自动驾驶产品经理 4D标注/数据闭环 世界模型 VLA 自动驾驶大模型 强化学习 端到端等 [4] - 合作岗位说明主要面向自动驾驶培训合作 包括面向企业和高校的B端培训以及面向学生和求职人群的C端培训 [5] - 合作内容还包括课程开发和原创文章创作 [5] 合作联系方式 - 感兴趣的从业者可通过添加指定微信进行进一步咨询 [6]
今日暴论:Deepseek-OCR干翻了所有架构
自动驾驶之心· 2025-10-27 08:03
技术突破 - DeepSeek发布新模型DeepSeek-OCR,其核心创新在于使用图像作为AI的“记忆载体”,而非传统的文字token [3][6][7] - 该技术可将大量文字信息转化为一张图片进行存储,实现极高的信息压缩比,仅需原本十分之一的token即可存储几乎相同的文字信息 [1][12][40] - 在文档理解任务测试中,DeepSeek-OCR仅用100个视觉token就超越了需要256个token的GOT-OCR 2.0模型,用不到800个视觉token就超越了平均需要6000+ token的MinerU 2.0模型 [13][14] 性能优势 - 模型支持多种分辨率和压缩模式以适应不同复杂度的文档,例如仅需64个视觉token表示简单PPT,最多400个视觉token处理文字密集内容,并支持动态调整的Gundam模式 [18][19][20] - 使用图像记忆后,模型能将token数量压缩至原本的十分之一,同时性能损失极小,在压缩10倍时准确率可达原模型的96.5%,即使压缩20倍准确率仍能保持约60% [40][41] - 该技术能显著降低模型计算量,因为对话长度增加一倍会导致计算量增加四倍,而视觉token的运用能有效控制成本 [36][37][38] 数据处理能力 - DeepSeek-OCR不仅能识别文字,还能自动提取并转换复杂信息,例如将论文中的柱状图识别为Excel格式,将有机化合物分子结构图片转化为SMILES格式 [22][24] - 模型会同时记忆图片本身及其位置信息,以及图片附近的文字内容,从而捕获过去被忽略的二维信息 [26][27][32] - 该模型具备高效的数据采集能力,在一张A100显卡上一天可处理20万页以上的训练数据,有望将现有数据重新识别一遍以补充高质量训练数据集 [28][29][35] 技术生态与影响 - DeepSeek-OCR是一个开源项目,其训练数据整合了华为的Wukong数据集,生成样本时借助了百度的PaddleOCR,图像特征提取使用了Meta的SAM,视觉语义理解整合了OpenAI的CLIP模型 [51][53] - 该技术引入了一种类似人类遗忘机制的信息存储方式,近期重要信息以高清晰度存储,而早期不重要信息可压缩存储,这可能增强模型的上下文处理能力 [43][45][47] - 这项突破有望解决行业面临的高质量训练数据短缺问题,因为许多过去未被采集的二维信息(如论文图表)现在可以被有效利用 [32][33][35]