自动驾驶之心
搜索文档
强化学习真的很适用于自动驾驶吗?
自动驾驶之心· 2025-09-09 07:33
核心观点 - 论文提出GigaFlow强化学习框架 通过self-play方式在虚拟环境中训练自动驾驶策略 无需真实数据即可在CARLA nuPlan Waymax等基准测试中实现SOTA性能 [3][8][22] - 该方法使用纯虚拟数据训练 等效驾驶距离达16亿公里 训练成本低于每百万公里5美元 在8块A100 GPU上10天内完成训练 [21][25] - 模型参数规模较小(actor和critic各300万参数) 推理速度达每秒740万次决策 比实时快360,000倍 [21][25] 技术框架 - 环境设计采用8张地图的随机增强(伸缩/旋转/镜像) 最多支持150个交通参与者并行交互 所有参与者共享策略但具有不同驾驶风格参数 [14][17][21] - 观测空间包含静态道路点(黄色稀疏点)、道路边界(红色密集点)、动态交通参与者状态(尺寸/位置/方向/速度)及交通信号信息 [16] - 动作空间离散化为12个组合(横向jerk取值{-4,0,4} 纵向jerk取值{-15,-4,0,4}) [18] 奖励函数设计 - 包含目的地到达奖励 碰撞惩罚(公式:-Ocollision + 0.1v) 车道居中激励 闯红灯惩罚 加速度限制惩罚等10个组件 [12][15] - 奖励权重采用随机分布初始化(如碰撞惩罚权重U(0,3) 舒适性权重U(0.0,0.1))以模拟不同驾驶风格 [15][17] - 最终奖励为各组件加权和 权重参数作为agent条件输入 [18] 训练算法 - 使用PPO算法配合优势过滤(Advantage Filtering) 动态计算优势阈值(EMA衰减系数β=0.25)并丢弃低价值经验数据 [19][20] - 在8块A100 GPU上并行38,400个环境 批量大小260万 经验收集时带宽达740万决策/秒 [21] - 训练数据包含1万亿状态转移 等效9,500年主观驾驶经验(16亿公里) [25] 性能表现 - 在nuPlan测试中取得92%路线完成率 99%无碰撞率 93%进度得分 显著超过IDM、PlanCNN等基线方法 [26] - CARLA基准测试中碰撞率仅0.43% 违规率0.11% 进度完成率99.16% 接近专家演示水平 [28] - 模型能泛化到真实噪声环境 价值函数与人类直觉对齐(如转弯速度高时价值降低 靠近前车时价值下降) [22][32][34] 局限性 - 纯虚拟训练可能面临sim-to-real差异 依赖感知抽象结果而非原始传感器数据 [37] - 未融合真实数据模仿学习 传感器模拟可能降低训练效率 [36][37]
清华最新综述!200+文献全面凝练Agentic RAG最新进展~
自动驾驶之心· 2025-09-09 07:33
检索增强生成与推理协同技术演进 - 文章核心观点聚焦于通过整合检索增强生成(RAG)与推理技术解决大型语言模型的知识幻觉和复杂推理缺陷 提出从单向增强演进到协同框架的系统化方法 旨在构建更高效 多模态适配且可信的深度系统 [1][5][7] 推理增强型RAG(推理→RAG) - 利用推理技术优化RAG流程的检索 整合 生成三阶段 通过查询重构 检索策略规划和检索模型增强提升信息相关性 例如PAR-RAG采用思维链进行多步规划 GNN-RAG用图神经网络编码知识图谱实现隐式多跳推理 [13][14][16] - 整合阶段通过相关性评估(如SEE引入评估专家角色)和信息融合(如BeamAggR枚举子问题答案组合)过滤噪声并组织证据 生成阶段采用上下文感知整合(如Open-RAG动态选择知识模块)和基于事实的生成控制(如Self-RAG引入反思标记)确保输出真实性 [17][19][20][22][23] RAG增强型推理(RAG→推理) - 通过外部知识检索(如知识图谱 网络内容)和上下文内检索(如先前交互记录)为推理提供事实依据 填补逻辑缺口 提升事实准确性和逻辑一致性 具体应用包括AlignRAG从通用知识图谱检索事实条目 IAG利用数据库等结构化来源 [24][25][26] - 工具使用类方法(如调用计算器 API)和示例检索(如从训练数据获取范例)增强数值准确性和推理模式模仿 例如ToolkenGPT调用雅虎财经API llm-tool-use自主调用计算器实现精准数值推理 [27][28][31] 协同式RAG-推理框架(RAG⇔推理) - 采用迭代 交互式多步整合 推理主动引导检索 新检索知识持续优化推理流程 智能体能力协调多步网络搜索并通过推理解读内容 解决开放域问答等复杂问题 例如OpenAI和Gemini的深度研究产品强调检索与推理紧密耦合 [7][29][31] - 推理流程分为链式(如IRCoT在推理步骤间插入检索) 树式(如RATT构建检索增强型思维树)和图式(如GraphReader结合LLM推理与显式子图检索)三类结构 智能体协同调度包括单智能体(如CoV-RAG引入验证链)和多智能体(如中心化架构采用管理者-执行者范式) [33][34][35][37] 基准测试与数据集 - 涵盖网页浏览(如BrowseComp含1,266条数据) 单跳问答(如TriviaQA超650,000条) 多跳问答(如HotpotQA含113,000条) 数学任务(如MATH含12,500条)和代码评估(如LiveCodeBench含500+条)等多类复杂场景 知识来源包括互联网 工具和人类提供内容 [39][40] 未来研究方向 - 提升推理效率 through潜在推理和思维蒸馏策略 检索效率通过预算感知查询规划和自适应检索控制 例如实际场景中单个深度研究查询可能超10分钟延迟 [44][45] - 发展多模态检索能力 突破文本局限 强化多模态大型语言模型的基础能力如跨模态推理 并开发统一多模态检索器联合嵌入图像 表格等异构内容 [48] - 确保检索可信度 through水印 数字指纹技术及动态自适应方法应对对抗性攻击 同时扩展现有基准测试纳入多维度可信度指标 [49] - 智能体框架需支持动态工具选择 检索规划和自适应协同调度 人机智能体协作需建模用户意图并构建交互式界面实现精细化反馈引导 [46][47]
端到端数据驱动闭环来了!三大突破引领行业进入 “数据闭环” 新时代
自动驾驶之心· 2025-09-09 07:33
公司及产品介绍 - 51WORLD是一家致力于克隆地球5.1亿平方公里的科技公司,其核心业务是通过建立数字孪生世界来改变世界 [2] - 公司已推出三款核心产品:51Aes数字孪生平台,51Sim合成数据与仿真平台,51Earth数字地球平台,这些产品已被全球超千家大中型企业广泛应用 [27] 行业背景与挑战 - 2025年,中国汽车产业加速进入端到端时代,数据驱动闭环面临新的机遇与挑战,如何构建并打通全链路成为产业跨越瓶颈、实现智能驾驶规模化落地的关键 [2][6] - 端到端技术是指从输入环境感知数据直接输出驾驶指令,其本质是基于数据驱动的技术路线,需要大量高质量数据进行模型训练 [5] - 行业当前面临多重挑战:高质量实采数据稀缺且成本高昂;仿真数据置信度不足;不同车型间数据复用性差;实际路测无法覆盖全部场景;缺乏全链条测试评价体系 [9][12] 端到端数据驱动闭环方案发布 - 在Testing Expo China 2025期间,51Sim正式发布了“端到端数据驱动闭环”方案 [2] - 该方案是51Sim在2023年联合火山引擎、天准、美行等伙伴打造行业首个全链路方案后,经过两年深耕迭代的全面技术架构升级 [7] - 方案旨在打破关键技术瓶颈,为行业创造领先解决方案,助力全产业链构建端到端时代的新核心竞争力与技术壁垒,加速高阶智能驾驶迈向规模化量产落地 [2][7] 方案三大核心突破:仿真置信度 - 方案在仿真置信度上实现行业级突破,其中动力学仿真、激光雷达仿真及摄像头仿真的置信度分别高达95%、95%、90% [10] - 基于智驾算法的总体置信度超过90%,仿真测试与场地测试对比一致性达92% [10] - 方案创新性深度融合3D高斯泼溅技术(3DGS)和4D高斯泼溅技术(4DGS),对场景重建与仿真引擎进行全面升级 [10] - 3DGS融合仿真引擎利用数十亿乃至上百亿个“高斯球”数字化描述场景,能实现低成本、高保真的静态场景重建,几何与材质细节还原度据称可超过95% [11] - 基于4DGS的LogSim闭环仿真可基于原始视频流,实现主车变车道、对手车换车型和轨迹等场景仿真,进一步挖掘真实数据的可用性 [14] 方案三大核心突破:AI赋能 - 方案引入大模型感知场景理解和挖掘能力,完成从“工具集成辅助”到“AI全流程驱动”的突破性升级 [16] - 搭建了灵活可配置的自定义算子和自由可编排的工作流引擎,用户可根据业务需求精准构建适配复杂多变的数据处理任务,提升数据处理吞吐量和一致性 [16] - 基于大模型能力,可以自动识别和挖掘高价值场景,支持使用自然语言描述或图像相似度进行高效检索,极大提升数据利用效率和覆盖深度 [20] 方案三大核心突破:数据复用性 - 方案在数据的跨车型迁移与复用上做出创新突破,旨在释放数据的复利价值 [18] - 依托自主研发的4DGS新视角合成技术,可以打破不同车型间因传感器型号、安装位置等不同造成的数据壁垒,使一辆车采集的高价值数据可用于为另一辆配备不同传感器的车辆服务 [18] - 借助世界大模型,依托自研方案生成的合成数据实现了泛化性的跨数量级显著提升,一次构建可生成海量泛化场景,大幅提升数据复用性,节省重建成本 [20] - 合成数据帮助车企实现极端数据的“饱和式”覆盖,为应对极端场景提供更强大的数据保障,加速算法迭代 [20] 生态合作与发展 - 2023年,51Sim联合芯片、地图、域控制器等上下游伙伴共同组建“数据驱动闭环生态”,旨在构建全链条开发和量产验证体系 [21] - 随着产业进入端到端时代,数据驱动闭环生态迈向2.0阶段,更多来自3DGS采集、世界模型、智能标注等前沿领域的合作伙伴加入,进一步丰富了生态版图 [23] - 未来,生态将持续拓展端到端时代的实践路径,推动跨领域技术融合与跨产业协同创新,以生态合力加速汽车产业高质量发展 [24] - 51Sim将持续以开放合作姿态,携手产业链伙伴,共同构建更多适配端到端时代需求的产品及解决方案 [25]
花了很久,才整理好的大模型学习路线......
自动驾驶之心· 2025-09-09 07:33
从今年上半年具身VLA、自驾VLA/VLM这些方向大火以来,很多同学都对大模型这个领域感兴趣,咨询我 们一些前沿大模型技术的学习路线。我和峰哥也商量了一下,决定把大模型的社区做起来。 筹备了半年时 间,今天也终于和大家见面了~ 大模型技术是诸多前沿领域发展的基础。最具代表性的是RAG和AI Agent,企业对掌握 RAG、Agent 等技 术的人才需求高涨,这些技能已成为 AI 从业者的核心竞争力。算法开发、工具链开发、后端、产品经理、 架构师等等相关岗位需求非常旺盛,算法核心岗位的年薪更是一骑绝尘! 开源大模型生态为学习者提供了绝佳机会。国外有Meta的LLaMA 3;国内有DeepSeek采用完全开源模式, 其衍生项目已经超过800个,通义千问衍生模型数破10万,居世界第一。开源不仅降低研发门槛,还促进技 术共享与创新,让开发者能在现有基础上快速迭代。 学习大模型也是适应大趋势的必然。 『大模型之心Tech知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的大模型社区。 我们期望未来2年内做到近万人的规模。给大家打造一个 交流+技术分享的聚集地,是许多初学者和进阶的同 ...
博士毕业的3篇CCF-A文章都是怎么发出来的?
自动驾驶之心· 2025-09-08 18:56
最近收到了许多同学在论文发表上的求助,学校绕不开一篇三区论文硕士毕业,没有三篇CCF-A博士都毕不了 业,老师对这个新的方向不熟悉,开展不了工作。一直在为论文选题绞尽脑汁,实验设计总遇瓶颈,写作逻辑混 乱不清,投稿屡屡被拒! 尤其是在前沿且复杂的自动驾驶、具身智能、机器人领域,真的有点力不从心。 一篇好的论文需要有好的切入点,哪个方向更容易产出,这一个判断尤为重要!剩下的就是怎么论证这个idea work,比当前SOTA有效(如果是A类会议)。实验的设计也非常重要,特别是消融实验,要摸清是什么因素导 致的提升。后期的写作技巧,取决于你是否能够让审稿人眼前一亮,如何回复审稿意见也是需要经验的。 筹备了近1年,我们的论文辅导正式推出了,主要面向自动驾驶/具身智能/机器人领域。 我们是谁? 国内最大的AI类技术自媒体平台,IP包含自动驾驶之心/具身智能之心/3D视觉之心等平台,拥有国内最顶尖的学 术资源。深耕 自动驾驶、具身智能、机器人 方向多年。我们深刻理解这些交叉学科的挑战与机遇,更明白一篇 高质量论文对于学生(尤其是硕博生)学业和未来发展的重要性。 我们目前有300+专职于自动驾驶/具身智能方向的老师。来自于 ...
自动驾驶之心招募令!世界模型/模型部署/VLA方向
自动驾驶之心· 2025-09-08 17:09
业务拓展计划 - 公司计划在国内外招募10名业务合伙人,负责自动驾驶相关业务开发 [2] 核心业务方向 - 合伙人将负责课程研发、论文辅导业务开发及硬件研发 [2] - 重点关注技术方向包括大模型/多模态大模型、世界模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、闭环仿真3DGS、大模型部署与量化感知推理等 [3] 人才招聘标准 - 目标候选人需为QS200以内高校硕士及以上学历 [4] - 拥有顶级学术会议成果者优先考虑 [4] 合伙人待遇 - 提供自动驾驶行业资源共享,包括求职、读博、出国留学推荐等 [5] - 提供丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
3DGS和重建方向,师兄推荐了这个3D激光扫描仪...
自动驾驶之心· 2025-09-08 17:09
最强性价比3D激光扫描仪 面向工业场景和教研场景的 超高性价比3D扫描仪来了!GeoScan S1是国内目前最强性价比实景三维激光扫描 仪,轻量化设计,一键启动,便可拥有高效实用的三维解决方案。以多模态传感器融合算法为核心,实现厘米级 精度的三维场景实时重构。可广泛用于多种作业领域。 每秒20万级点云成图,70米测量距离,360°全域覆盖,支持20万平米以上的大场景,扫描可选配3D高斯数据采 集模块,实现高保真实景还原。支持跨平台集成,配备高带宽网口及双USB 3.0接口,为科研实验提供灵活扩展 空间。降低开发门槛,助力开发者快速掌握研发能力,开启更多可能。 GeoScan S1设备自带手持Ubuntu系统和多种传感器设备,手柄集成了电源,可通过D-TAP转XT30母头输出至 GeoScan S1设备本体,给雷达、摄像头以及主控板提供电源。 基础版重建效果一览! 使用门槛低 :操作简单直观,一键启动即可 执行扫描作业 扫描结果导出即用 :无需复杂部署和繁琐处理,扫 描结果导出即用 高效率高精度建图 :模型精度高,行走之间轻松扫 描大场景 业内最优惠价格 :性价比高,高度 集成多传感器, 往下翻~ 重磅!3DG ...
理想汽车如何看待VLA里语言部分的作用
自动驾驶之心· 2025-09-08 11:32
来源 | 理想TOP2 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 语言是认知世界的框架,而不仅是沟通工具。人类所能思考、理解和表达的一切,都被限制在语言的范畴之内。我们所理解的世界,很大程度上是我们所使用的语 言的产物,对于无法用语言表述的事物,我们难以形成清晰的思想。而且,不同的语言以其独特的词汇、语法和结构,为使用者提供了不同的认知框架。所以我们 会看到,来自于不同语言体系的人,其思维方式是有差别的。 在VLA架构里面,V是感知,A是动作,而L承担的是语言能力部分。L对V感知的内容做出认知理解并形成A的行动规划和决策。VLA的L不是用语言做显式的文字 推理,而是用人类语言提供的数据学习做隐式的逻辑推理,这才是L真正的核心。很多人以为L就是输出在交互界面的那几行文字以及语音控制命令,这个理解是 不对的。其实文字输出和语音输入都是可选的,输不输出都不太关键(看人类想不想要),真正发挥作用的是背后推理的长思维链。如果没有强大的L,再好的V 和A都无法发挥出来。这跟人与动物的区别很相似。论视觉能力人比不过鹰,论行动速度比不过猎豹,但人之所以能够称霸地球, ...
这家倒闭新势力宣布复活!
自动驾驶之心· 2025-09-08 11:32
复活了!9月6日,威马汽车通过官方公众号发布《致供应商白皮书》。 目前,深圳翔飞汽车销售有限公司已正式接管威马汽车,正全力推进威马EX5与E5车型在温州基地的快速 复产,同时计划未来5年向市场推出10款以上新产品,并挑战年产100万辆的目标。 最近,国内汽车行业正在从短暂的低谷走出来。 比如蔚来正迎来新的拐点,零跑的增长还在持续,小鹏汽 车八月份的销量也同比增长了169%!智能驾驶的道路远未结束,最近行业内也掀起了新一轮的技术探讨: VLA还是WA,L3的技术路线出现了分歧,我们还有很多很多事情可以做。 这也是我们一直坚持做自动驾驶社区的原因! 三年期间社区内部一直聚焦在自动驾驶最前沿的技术方向,多模态大模型、VLM、VLA、闭环仿真、世界 模型、扩散模型、端到端自动驾驶、规划控制、多传感器融合等 近40个技术方向的内容 。涵盖了目前所有 主流的方向,并形成了技术路线,适合入门进阶的同学做进一步提升。 社区成员主要分布在头部的自驾/具身/互联网公司、Top高校实验室、还有一些传统的机器人公司。形成工 业界+学术界互补的态势。如果您真的有需要,想要做系统提升、和更多的同行业人员交流,欢迎加入。开 学季大额优惠, ...
从近1000篇工作中,看具身智能的技术发展路线!
自动驾驶之心· 2025-09-08 07:34
机器人操作 - 机器人操作从机械编程演进至具身智能阶段 聚焦多指灵巧手与AI赋能的数据采集和技能学习框架[6] - 灵巧操作依赖模拟器 人类演示和遥操作三种数据采集范式 结合模仿学习和强化学习框架[6] - 面临三大关键挑战 包括高质量数据集缺乏 静态学习框架鲁棒性不足 端到端学习泛化性受限[6][13] 具身导航与操作 - 导航任务从显式记忆转向隐式记忆 操作任务从强化学习拓展至模仿学习 扩散策略及VLA模型[13] - 物理模拟器分为室内型 Habitat AI2-THOR 室外型 CARLA AirSim 和通用型 ThreeDWorld Isaac Sim[12][13] - 操作模拟器包括经典物理引擎 MuJoCo PyBullet 和可微分物理引擎 Dojo Genesis[13] - 评估指标采用成功率 SR 和路径效率 SPL 操作任务使用SO(3)/SE(3)等变表示[13] 具身多模态大模型 - 由具身智能体 大语言模型 GPT系列 大视觉模型 ViT 和视觉语言模型 CLIP 构成基础架构[17] - 覆盖具身感知 导航 交互 仿真四大核心任务 感知分为GPT与非GPT模型 导航分通用与专用模型[17] - 使用Open X-Embodiment和HM3D等数据集 面临跨模态对齐难 计算资源消耗大 领域泛化性弱等挑战[17] 强化学习应用 - 采用RLHF DPO RLVR三种对齐范式 结合PPO和GRPO策略优化算法 通过KL正则约束政策偏移[24][26] - 应用于多模态大语言模型 视觉生成 统一模型和视觉-语言-动作模型四大方向[26] - 评估体系包含集合级 FID 样本级 RLHF奖励 和状态级 KL监控 配套SEED-Bench-R1等基准[26] 遥操作技术 - 系统架构包含人类状态测量 运动重定向 机器人控制和多模态反馈 支持单向或双向操作[30][32] - 运动重定向采用完整动力学模型与简化模型 LIPM 通过ZMP/DCM保证平衡[30] - 应用远程存在和危险作业场景 面临非专家操作门槛高 动态环境适应难 长延迟稳定性差等挑战[33] 视觉-语言-动作模型 - 涵盖80多个近三年发布的VLA模型 涉及架构创新 参数高效训练和实时推理加速等进展[31][34] - 按架构分为单体模型 Monolithic 与分层模型 Hierarchical 从结构与功能双维度分析[39] - 发展历程划分为萌芽 探索和快速发展三阶段 使用互联网图文 视频 仿真和真实机器人数据训练[36] - 应用于类人机器人 自动驾驶 医疗与工业机器人 精准农业和增强现实导航等领域[31]