自动驾驶之心

搜索文档
后端到端时代:我们必须寻找新的道路吗?
自动驾驶之心· 2025-09-02 07:32
行业技术发展趋势 - 2025年VLA(Vision-Language-Action)成为行业新焦点,但技术路径出现明显分歧,部分企业积极推广而部分头部团队选择回避 [1][5][6] - 相较于2023-2024年端到端技术达成行业共识的局面,VLA技术路线呈现"分歧中的探索"态势 [5][6] - 技术切换期被视为占领用户心智和证明研发优势的关键窗口 [4] 企业战略布局差异 - 理想汽车通过VLA巩固端到端技术红利带来的领先优势 [4] - 元戎启行借助VLA提升辅助驾驶系统性能上限 [4] - 小鹏汽车将具身智能领域积累的VLA技术迁移至辅助驾驶系统,并采用自研高算力芯片解决实时性问题 [4][22] - 华为ADS明确主张WA(World Model + Action)为自动驾驶终极方案,回避VLA路径 [5] - 蔚来在低速场景应用世界模型但对外宣传保持低调 [5] - 地平线否认其HSD系统属于VLA,坚持VA(Vision-Action)技术路线 [23] VLA技术原理与应用 - VLA通过视觉模块感知环境、语言模块表述任务、动作模块执行驾驶行为,实现感知-决策一体化 [9] - 技术优势在于结合端到端的性能与语言的可解释性,理想状态下可映射人类驾驶本能 [10] - Wayve的LINGO系列实现边驾驶边用自然语言解释决策,LINGO-2支持实时语言指令调整行为 [12] - OpenDriveVLA融合2D/3D视觉token与语言生成控制轨迹,在Nuscenes数据集取得最优结果 [14][16] - 谷歌Deepmind的RT系列将互联网视觉-语言知识迁移至机器人控制,提升泛化能力 [17][18] 技术挑战与局限性 - 自然语言存在模糊性与不完备性,例如"慢一点"等指令缺乏精确动作约束 [19] - 语言-动作不对称性问题导致监督学习存在噪声,语言主要在任务级别有效而非细粒度控制 [19] - 多模态Transformer推理开销巨大,OpenVLA模型约7B参数需15GB显存且运行频率仅6Hz,低于行业10Hz标准 [21] - 实际部署中多用于上层任务分配,轨迹输出仍由传统模型执行并需兜底机制 [23] 替代技术路径发展 - VA(Vision-Action)方案通过内隐世界模型实现环境状态向量化表示,华为与地平线采用此路径 [23] - 地平线HSD系统通过深度神经网络实现决策统一性,在不同场景下保持自适应行为 [25] - 采用平衡数据分布并筛选优化人类驾驶数据,使决策更符合直觉 [25] - 坚持模块最小化架构,屏蔽激光雷达输入以避免感知依赖,保持系统简洁性与可维护性 [28] - 纯视觉版本结合软硬件一体方案具备成本优势 [31] 行业本质问题与未来方向 - 辅助驾驶核心问题仍是缺乏对世界的深度理解能力 [33] - 语言作为新输入维度类似激光雷达,提供抽象能力但非终极解决方案 [33] - 行业面临选择新道路或深化现有路径的战略抉择,不同技术路线均存在发展机会 [34]
端到端自动驾驶的万字总结:拆解三大技术路线(UniAD/GenAD/Hydra MDP)
自动驾驶之心· 2025-09-02 07:32
端到端自动驾驶算法研究背景 - 传统自动驾驶算法采用模块化流程:感知模块输入图像或激光雷达数据输出边界框,预测模块输出轨迹,最后进行规划[5][6] - 端到端算法直接输入原始传感器数据并输出路径点,路径点可转换为控制信号且回归相对容易[6] - 传统算法优点包括易于调试和问题定位,具有可解释性,但存在误差累积问题,无法保证感知和预测模块完全无误差[7][10] 端到端算法现有范式与局限性 - 模仿学习分为行为克隆和逆优化控制,强化学习方法在论文中较少见[11] - 评估方法分为开环评估(使用固定场景数据)和闭环评估(自车与环境存在交互)[11] - 模仿学习难以有效解决所有corner case问题,真值数据本身存在噪声,人类驾驶数据并非完全最优解[11] - 当前挑战包括可解释性问题、安全保证以及因果混淆现象,例如绿灯起步时误将旁边车道车辆起步作为启动信号[12] - 还需解决输入模态多样性、多任务学习及知识蒸馏等技术难题[12] ST-P3算法框架与创新 - 输入为环视相机图像,设计三个核心模块:感知、预测和规划,最终输出自动驾驶车辆轨迹[14] - 感知模块采用以自车为中心的累积对齐技术,预测模块通过双路预测机制实现,规划模块引入先验信息对生成轨迹进行优化[15] - 感知模块中结合预测的深度信息,采用类似LSS范式的方法得到BEV空间表示,创新点在于考虑RO角和PG角不为零的情况[18] - 预测模块采用双路结构,一路通过GRU进行递归处理,另一路引入高斯噪声进行前向迭代,两路输出融合得到T+10、T+20时刻状态特征[18] - 规划阶段利用前视相机获取红绿灯信息,并对预测轨迹进行优化,优化过程包括自车预测轨迹的代价函数和预测轨迹与真实轨迹之间的L2距离[19][20] UniAD算法框架与创新 - 采用全Transformer框架,以规划为导向构建端到端自动驾驶系统[25] - 引入五个代理任务(Head Task)通过增加任务数量提升性能,创新点在于规划导向设计[24] - Backbone部分与BVFormer相同获取BEV特征,MapFormer将Segformer的2D版本扩展至3D用于实例分割[26] - MotionFormer通过三种交互进行预测:Agent之间交互、Agent与地图交互、Agent与目标点交互,输出预测轨迹、特征及每条轨迹评分[26] - OccFormer利用MotionFormer的Agent级特征作为KV,BEV特征作为Q,计算实例级占用情况[26] - Planner输入包括自车运动轨迹特征、位置编码、OccFormer输出以及BEV特征,规划时需考虑未来占用情况确保选择可行区域[26] VAD算法矢量表征与约束 - 采用矢量化表征方法,将栅格化表征转换为矢量化形式,更好表达地图元素结构信息保持几何特性[32] - 矢量表征包含运动矢量(motion vector)和地图矢量(map vector),通过地图查询经地图变换器处理后预测地图矢量,通过智能体查询预测运动矢量[32][33] - 规划过程中引入三个主要约束:自车与他车之间碰撞约束(涉及横向和纵向距离)、自车与边界之间距离约束、自车方向约束(通过计算自车向量与车道线向量角度差确保行驶方向正确)[40] 概率化规划方法 - 规划是不确定性任务,确定性方法无法处理掉头等情况,概率化表征方法将规划流视为概率分布从而选择最优轨迹[43] - 实现借鉴类似GPT的ARP思想:初始化动作空间并离散化,规划词汇表收集4096种可能动作(如直行、加速、刹车、左转、右转等),编码后生成planning token[43] - 通过场景token与planning token交互,结合自车状态和导航信息,预测动作分布并选择概率最高的标准轨迹作为规划结果[44] GenAD生成式建模方法 - 将自动驾驶建模为轨迹生成问题,考虑自车与他车在未来帧中的交互,采用类似VAE的生成式建模思路[44] - 训练时学习轨迹分布,推理时采样分布并通过解码器生成路径点,关键点在于训练过程中构建有效的监督信号[44][45] - 训练阶段将GT的track query trajectory通过编码器编码得到latent space轨迹表征,通过解码器重构当前轨迹并与原始真值轨迹进行监督训练[45] 多模态规划与监督学习 - 引入多模态规划方法解决轨迹预测不稳定性问题,通过预测多个候选轨迹并选择最优轨迹进行模型学习[53] - 结合多模态规划与多模型学习方法,在多轨迹预测的模型学习损失基础上增加知识蒸馏损失,蒸馏损失来源于多种基于规则的教师模型[53] - 额外监督信号包括无责任碰撞、可行驶区域合规性、驾驶舒适性等指标,均纳入回归损失函数进行反向传播[56] 端到端算法当前局限性 - 主要采用模仿学习框架,作为纯数据驱动方法优化过程较为困难[57] - 难以学习到最优真值(Ground Truth),对异常案例(Counter Case)的处理能力有限[57]
驾驭多模态!自动驾驶多传感器融合感知1v6小班课来了
自动驾驶之心· 2025-09-01 17:28
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 随着自动驾驶、机器人导航和智能监控等领域的快速发展,单一传感器(如摄像头、激光雷达或毫米波雷达)的感 知能力已难以满足复杂场景的需求。 为了克服这一瓶颈,研究者们开始将激光雷达、毫米波雷达和摄像头等多种传感器的数据进行融合,构建一个更全 面、更鲁棒的环境感知系统。这种融合的核心思想是优势互补。摄像头提供丰富的语义信息和纹理细节,对车道 线、交通标志等识别至关重要;激光雷达则生成高精度的三维点云,提供准确的距离和深度信息,尤其在夜间或光 线不足的环境下表现优异;而毫米波雷达在恶劣天气(如雨、雾、雪)下穿透性强,能稳定探测物体的速度和距 离,且成本相对较低。通过融合这些传感器,系统可以实现全天候、全场景下的可靠感知,显著提高自动驾驶的鲁 棒性和安全性。 当前的多模态感知融合技术正在从传统的融合方式,向更深层次的端到端融合和基于Transformer的架构演进。 传统的融合方式主要分为三种:早期融合直接在输入端拼接原始数据,但计算量巨大;中期融合则是在传感器数据 经过初步特征提取后,将不同模态的特征向量进行融合,这 ...
研究生开学,被大老板问懵了。。。
自动驾驶之心· 2025-09-01 11:17
社区规模与愿景 - 自动驾驶之心知识星球是一个综合类自驾社区 集视频 图文 学习路线 问答 求职交流为一体 目前成员超过4000人 预期未来2年内规模达到近万人[1] - 社区愿景是让AI与自动驾驶走进每个有需要的同学 致力于打造交流与技术分享的聚集地[1] 技术资源覆盖 - 社区梳理近40+自动驾驶技术路线 覆盖端到端 VLA 多模态大模型 数据闭环4D标注等前沿方向[1][3] - 包含近60+自动驾驶数据集 行业主流仿真平台 以及感知 仿真 规划控制等完整学习路线[14] - 汇总国内外知名高校实验室和自动驾驶公司资源 涵盖RoboTaxi 重卡业务 造车新势力等领域[26][29] 专家网络与互动 - 邀请数十位一线产业界和工业界嘉宾 包括顶会常驻专家 提供技术答疑和行业见解[3] - 不定期组织学术界与工业界大佬直播分享 目前已举办超过100场专业技术直播[58] - 建立与近300家机构及自驾公司的内推机制 直接对接企业招聘需求[10][67] 核心内容体系 - 技术方向系统覆盖BEV感知 3D目标检测 多传感器融合 世界模型 扩散模型等40+领域[5][7] - 实战板块包含模型压缩 部署优化 以及TensorRT 毫米波雷达融合等100问系列工程实践[7] - 提供全栈学习课程和入门路线图 针对0基础小白和进阶研究者分别设计学习路径[8][10] 行业趋势洞察 - 跟踪端到端自动驾驶量产应用 区分一段式/二段式技术方案并探讨工程落地难点[32][64] - 聚焦2025年热点VLA技术 系统梳理开源数据集 思维链推理及量产方案快慢双系统[36][37] - 分析世界模型 3DGS与NeRF等技术在自动驾驶仿真和感知领域的融合应用[33][39]
没有数据闭环的端到端只是半成品!
自动驾驶之心· 2025-09-01 07:33
行业趋势与需求 - 智能驾驶行业进入泛化深水区 端到端量产对自动标注要求显著提高[1] - 2024年以来智驾企业明显加大自动标注投入 人力物力资源集中[1] - 自动标注成为提升自动驾驶系统泛化能力与安全性的关键瓶颈[1] 技术难点与挑战 - 4D自动标注需实现3D空间+时间维度动态标注 面临五大核心难点[2] - 时空一致性要求极高 需确保跨帧标注连贯性 复杂场景下易出现标注断裂[2] - 多模态数据融合复杂 需同步解决激光雷达/相机/雷达的坐标对齐/语义统一/时延补偿问题[2] - 动态场景泛化难度大 交通参与者行为不确定性及环境干扰增加标注模型适应性挑战[2] - 标注效率与成本矛盾突出 高精度标注依赖人工校验 海量数据导致周期长/成本高[2] - 量产场景泛化要求高 不同城市/道路/天气/交通状况的数据挖掘与标注算法性能保障仍是行业痛点[2] 课程体系与内容架构 - 课程系统讲解自动驾驶4D自动标注全流程及核心算法 包含七大核心模块[3] - 基础模块涵盖4D自动标注应用场景/数据环境/交付物定义/系统时空同步/传感器标定技术[4] - 动态障碍物标注模块包含离线3D目标检测算法/CVPR 2024的SAFDNet实战/3D多目标跟踪算法/时序后处理DetZero实战[6] - 静态元素标注基于SLAM重建输出 通过全局clip道路信息实现自动化标注[9][11] - OCC标注模块解析通用障碍物算法输入输出 讲解基于Lidar/视觉的真值生成流程及工程优化方案[10] - 端到端真值生成模块涵盖一段式/两段式实现方案 整合动态障碍物/静态元素/可行驶区域/自车轨迹全流程[12] - 数据闭环专题分析行业scaling law有效性/主流公司数据驱动架构/跨传感器系统痛点及岗位面试要点[14] 技术实现与方法论 - 动态障碍物检测采用Image/Lidar数据增广技术 Backbone/检测头结合BEV/多帧时序融合方案[6] - 激光&视觉SLAM重建采用Graph-based算法 明确重建在4D标注中的核心用途[7] - 端到端标注配套闭环仿真DrivingGaussian算法 满足端到端自动驾驶刚需[12] - 数据质检体系作为结果验证关键环节 保障标注输出质量[6] 人才培养与能力建设 - 课程目标使学员掌握4D自动标注全流程 具备学术界与工业界前沿算法研发能力[19] - 课程覆盖动态障碍物检测跟踪/OCC标注/端到端标注等实战演练 提升解决实际问题能力[3][19] - 学员需具备深度学习/自动驾驶感知基础 熟悉Transformer模型及Python/PyTorch编程 自备12G以上显存GPU[23] - 课程采用线上录播模式 提供源码示例及社群答疑 有效期1年[19]
马斯克暴论,激光雷达和毫米波雷达对自驾来说除了碍事,没有好处......
自动驾驶之心· 2025-09-01 07:33
自动驾驶技术路线之争 - Uber CEO支持激光雷达方案 认为成本低且安全系数高 而特斯拉CEO坚持纯视觉路线 认为多传感器会降低安全性[1] - 百度同样坚持激光雷达方案 认为其能更好保证行车安全 纯视觉技术尚处早期阶段[2] - 全球头部自动驾驶公司存在明显技术路线分歧 Waymo和百度采用多传感器融合 特斯拉坚持纯视觉方案[6] 特斯拉纯视觉方案分析 - 特斯拉在2019年采用8V1R12S方案 2021年取消毫米波雷达转向纯视觉 2022年推出纯视觉Occupancy方案[8] - 方案基于"人类仅靠双眼驾驶"的理念 依赖海量车队数据训练神经网络 形成数据闭环[8] - 采用低成本摄像头有助于降低整车成本 更利于方案大规模普及[8] - 但存在场景优化难题 包括恶劣天气与光照条件 准确距离感知 算法和数据依赖度过高等问题[9] - 曾发生多起事故 如2019年佛罗里达州致1死1伤事故 2023年宾夕法尼亚州撞卡车事故 2025年Robotaxi试运营擦碰事故[9] Waymo多传感器融合方案 - 采用13V+4L+6R多传感器融合方案 实现360度无死角感知 最远识别500米路况[12] - 通过逼真仿真器生成各类案例 在多模态感知中持续突破[12] - 在复杂路况下保持良好性能 每周付费服务量从2月20万次增长到4月底超25万次 平均每车每天约24次[12] - 出现重大事故概率较小 更多是人为破坏 如2025年抗议者打砸烧事件[12] 百度自动驾驶布局 - 2013年开始布局 2017年推出Apollo平台 2021年推出萝卜快跑服务平台[14] - 采用多传感器融合方案 典型车型传感器配置为4L12V5R-12S[16] - 2024年5月发布L4级自动驾驶大模型Apollo ADFM 安全性高于人类驾驶员10倍以上[16] - 总服务订单量超1100万次 总行驶里程超1.7亿公里 未发生重大安全事故 出险率为人类驾驶员1/14[16] - 积极拓展海外市场 2024年获香港自动驾驶测试牌照 2025年与迪拜合作部署超1000台无人车[17] - 2025年7月与Uber建立战略合作 将数千辆无人车接入Uber全球出行网络[18] 技术方案对比分析 - 多传感器融合方案在极端天气 光照 截断等场景下感知性能优于纯视觉方案[21] - 在nuScenes等数据集上 多模态融合方案在3D检测等任务上性能高于纯视觉5-10个百分点[22] - 激光雷达成本大幅下降 从十年前8万美元降至现在千元级别 萝卜快跑第六代无人车4颗激光雷达成本仅3.5万元人民币[24] - 国际测试显示配备激光雷达车型可避免25%碰撞事故 事故影响缓解能力提升29%[26] 激光雷达技术优势 - 最远感知距离达150-200米 最新产品可达300米 远超摄像头80-100米的有效距离[29] - 帧率达10-20Hz 部分产品提升至30Hz 与摄像头帧率保持一致[32] - 在暴雨环境中测距精度仅下降8%-12% 仍能准确识别50米内行人[34] - 具备三维感知能力 能准确判断目标高度 大小和位置信息[36] - 采用905nm或1550nm波长 抗干扰性强 配备疏水性镀膜和加热除雾模块[37] 市场应用情况 - 2025年比亚迪十余款车型将搭载禾赛激光雷达 采用3激光雷达或单激光雷达方案[42] - 奇瑞iCAR 零跑B10 理想i8等车型均搭载禾赛激光雷达 零跑B10将激光雷达硬件下探到12万级别[43] - 速腾聚创2024年销量达519,800台 成为全球乘用车激光雷达销量冠军[45] - 与全球30家整车厂及Tier1达成合作 定点车型超百款 包括比亚迪 极氪 上汽智己等[45] 政策与安全要求 - 工信部等部门开展智能网联汽车准入试点 明确L3 L4级别商业化路径[55] - 美国NHTSA要求2029年所有乘用车标配含行人AEB系统 欧洲日本有类似法规[55] - 国内2025年将自动紧急制动系统国标从推荐性升级为强制性[56] - 联合国R157法规要求L3级系统提供10秒接管缓冲期 依赖激光雷达超视距感知能力[56]
最新综述!北交大等团队系统梳理LLM Agent推理框架核心进展
自动驾驶之心· 2025-09-01 07:33
( Agent ) 推理框架系统性综述 , 针对当前 LLM 智能体领域 "边界模糊"、"价值低估"的问题,首次以 "框架层面推理方法" 为核心视角,填补了该方向系统性综述的空白,为研究社区提供统一的分析基准 。投稿作者为大模型之心特邀嘉宾,如果您有相 关工作需要分享,请在文末联系我们! >> 点击进入→ 大模型技术 交流群 >> 点击进入→ Age nt 技术交流群 本文只做学术分享,如有侵权,联系删文 论文作者 | BingXi Zhao等 编辑 | 大模型之心Tech 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 今天 大模型之心Tech 为大家分享一篇 基于大语言模型(LLM)的智能体 写在前面 从微软的AutoGen到"AI程序员"Devin,基于大语言模型(LLM)的智能体(Agent)正以前所未有的速度重塑人工智能的边界。它们会分解任务、 推演计划、调用工具、彼此协作——似乎把"机器推理"带入了一个新的时代。 然而,在这股浪潮之下,一个核心的" 双重模糊性 "问题日益凸出: 一个Agent的优秀表现,究竟是归因于背后更强的模型,还是来源于其"框架 级"的 ...
北大升级DrivingGaussian++:无需训练,智驾场景自由编辑!
自动驾驶之心· 2025-09-01 07:33
3D场景重建与编辑技术突破 - 提出DrivingGaussian++框架 实现大规模动态驾驶场景的高精度分层建模 通过复合高斯泼溅(Composite Gaussian Splatting)将场景分解为静态背景和动态目标分别重建[4] - 引入LiDAR先验提升几何精度 将多帧LiDAR扫描点云与环视图像配准 通过密集束调整(DBA)优化点云位置 显著改善多视图一致性和重建质量[11][25][26] - 采用增量静态3D高斯(Incremental Static 3D Gaussians)处理大规模背景 按时间顺序划分深度区间并逐步融合 解决透视变化导致的尺度混淆问题[27][29] - 构建复合动态高斯图(Composite Dynamic Gaussian Graphs)建模多目标 通过目标ID和时间戳跟踪动态元素 使用变换矩阵将目标坐标系转换到世界坐标系[31][32] 无需训练的场景编辑能力 - 开发无需训练的编辑框架 支持纹理修改 天气仿真和目标操纵三大任务 通过直接操作高斯粒子实现物理准确的编辑效果[18][19][20] - 纹理修改采用深度均衡化技术 对编辑区域深度图进行归一化处理 确保表面平整度 公式为$D_{\rm opt}(M_{\rm edit},x,y)=Average(D_{\rm ori}(M_{\rm edit},y))$[44][46] - 天气仿真通过粒子系统实现 雨滴使用狭窄半透明白色高斯 雪花采用不规则白色椭球高斯 雾采用随机分布高斯 并添加物理轨迹模拟动态效果[47] - 目标操纵支持删除和插入操作 利用3D边界框精确定位 对插入目标使用MCLight进行光照适配 并通过LLM生成运动轨迹预测[48][51] 性能表现显著领先 - 在nuScenes数据集上PSNR达28.74 SSIM达0.865 LPIPS降至0.237 全面优于Instant-NGP(PSNR 16.78) Mip-NeRF360(PSNR 22.61)和EmerNeRF(PSNR 26.75)[55][56] - 编辑效率显著提升 执行时间仅需3~10分钟 远低于InstructNeRF2NeRF的274分钟和ClimateNeRF的107分钟[70][71] - 在CLIP-direction相似性指标上达0.2327 超过InstructNeRF2NeRF(0.1570)和InstructGS2GS(0.0918) 体现卓越的文本对齐能力[71] - 单目视图重建在KITTI-360数据集表现优异 PSNR达25.62 SSIM达0.868 超过NeRF(21.94)和Point-NeRF(21.54)[59][60] 构建3D高斯前景资源库 - 创建包含车辆 行人 交通标志等元素的3D高斯前景库 支持直接插入场景编辑[62][74] - 通过在线模型重建 使用Blender渲染360度视图并结合COLMAP进行3DGS重建[76] - 对nuScenes车辆进行稀疏重建 每辆车仅需2~4张参考图像即可完成高斯重建[77] - 结合DreamGaussian和DreamGaussian4D实现基于图像的3D目标生成 扩展数据集多样性[77] 技术方案优势验证 - 消融实验证实LiDAR先验关键作用 使用LiDAR-2M点云时PSNR达28.78 显著优于随机初始化(22.23)和SfM点初始化(28.36)[79][80] - 复合动态高斯图模块贡献突出 移除后PSNR降至26.97 SSIM降至0.752 证明其对动态场景建模的重要性[82][83] - 损失函数设计有效 包含TSSIM损失和鲁棒损失后 纹理细节改善且伪影消除[37][38][84]
VLA最新综述 | 中科院详解:面向具身操作的模型架构与演进
自动驾驶之心· 2025-08-31 00:03
具身智能与VLA模型发展历程 - 具身智能强调智能体通过与真实环境持续交互获得能力提升 操作机器人正从工厂走向家庭与开放环境[3] - 视觉-语言-动作模型将视觉感知 自然语言理解与动作控制深度融合 使机器人能理解环境 解析指令并自主执行复杂操作[3] - VLA发展分为三阶段:萌芽阶段(概念未形成但出现相似功能模型) 探索阶段(架构百花齐放 Transformer成核心) 快速发展阶段(架构多层化 多模态融合)[5][7][8][9] VLA模型核心架构 - 观测编码从CNN/RNN转向ViT和跨模态Transformer 融合三维视觉 触觉和力觉等多模态信息提升感知完整性[12] - 特征推理以Transformer为主流骨干 引入Diffusion Transformer 混合专家模型和线性复杂度结构增强推理能力[14] - 动作解码从离散token发展到连续控制预测 引入混合动作空间平衡长时规划与短时精度[15] - 分层系统采用上层负责环境建模与全局规划 下层专注高频率动作控制 提升语义推理和实时性[18] VLA训练数据体系 - 互联网图文数据提供视觉与语言先验但缺乏动态环境理解[17] - 视频数据蕴含自然交互时序特征 但缺少精确动作标注[17] - 仿真数据具低成本 规模化优势 但存在Sim2Real鸿沟[19] - 真实机器人数据直接反映传感器噪声与环境因素 但采集成本高昂限制规模扩展[19] - 列举13种真实机器人采集数据(如OXE)和10余种互联网 视频 仿真数据[20] VLA预训练方法 - 单一领域数据训练在单模态数据预训练 泛化能力有限[21] - 跨域数据分阶段训练先利用互联网图文/视频数据预训练 再引入机器人操作数据[21] - 跨域数据联合训练统一多模态对齐目标 直接学习感知-语言-动作协同关系[21] - 思维链增强显式建模推理链条 赋予任务分解与规划能力[21] VLA后训练方法 - 监督微调通过标注轨迹数据端到端训练 依赖数据多样性[22] - 强化微调利用交互数据优化策略 提升鲁棒性与长期任务能力但训练成本高[22] - 推理扩展通过评价机制和多次推理增强规划能力 无需增加训练成本[22] - 列举16种监督微调方法 10种强化微调方法及5种推理扩展方法[23] VLA模型评估体系 - 真实世界评估在实体机器人测试 结果可靠但成本高效率低[24] - 仿真器评估采用高保真平台(如Isaac Gym)支持大规模实验但存在迁移差距[24] - 世界模型评估利用环境模拟器快速迭代 但准确性依赖模型逼真度[24] - 列举7种仿真器评估环境包括SimplerEnv和LIBERO[24] 未来研究方向 - 泛化推理需提升跨任务 跨场景迁移能力 结合语言模型逻辑推理实现任务分解[26] - 精细操作需融合多模态感知信息(触觉/力觉/三维)建立精确动作生成机制[26] - 实时推理需探索高效架构(分层/线性复杂度) 模型压缩与端云协同实现低延迟控制[27]
上岸自动驾驶感知!轨迹预测1v6小班课仅剩最后一个名额~
自动驾驶之心· 2025-08-31 00:03
行业技术趋势 - 轨迹预测在自动驾驶领域仍是主流算法 许多公司依然沿用二段式端到端或模块化方法而非一段式端到端[1] - 扩散模型在多智能体轨迹预测领域取得重大突破 通过逐步去噪实现复杂分布生成[2] - Leapfrog Diffusion Model采用可训练跳跃初始化器 在多个数据集上实现19-30倍加速并显著提升精度[2] - Mixed Gaussian Flow通过构建混合高斯先验匹配多峰分布 在UCY/ETH和SDD数据集达到最先进性能[2] - Pattern Memory-based Diffusion Model通过聚类人类运动模式构建记忆库 引导生成多样而合理的轨迹[2] 研究应用方向 - 多智能体轨迹预测根据多个交互主体历史轨迹预测未来运动 应用于自动驾驶、智能监控和机器人导航[1] - 研究融合社会交互建模与条件控制机制 实现对目标点和环境因素的灵活引导[3] - 在ETH、UCY、SDD等公开数据集进行实证验证 与LED、MGF、SingularTrajectory等主流方法系统比较[3] 技术发展痛点 - 人类行为具有不确定性和多模态性 使预测任务十分困难[1] - 传统方法依赖循环神经网络、卷积网络或图神经网络建模社会交互[1] - 生成模型如GAN和CVAE虽可模拟多模态分布但效率不高[1] 课程内容体系 - 课程提供ETH、UCY、SDD等公开行人或车辆轨迹数据集及预处理脚本[20] - 提供多个开源框架包括LED、SingularTrajectory、MGF、MPMNet等baseline代码[21][22] - 涵盖CVPR 2023/2024和NeurIPS 2024等顶级会议的最新论文[23] - 课程周期包含12周在线小组科研、2周论文指导和10周论文维护期[9][31] 教学方法特色 - 采用"2+1"式授课师资 配备名校教授、研究院和行业导师领衔授课[16][17] - 提供科研论文idea 每位学员均可获得导师准备的研究课题[9] - 包含全学习周期服务 从基础知识测试到学术通识准备再到后期报告指导[18] - 课程产出包括论文初稿、项目结业证书和推荐信[19]