Workflow
自动驾驶之心
icon
搜索文档
从近1000篇工作中,看具身智能的技术发展路线!
自动驾驶之心· 2025-09-08 07:34
机器人操作 - 机器人操作从机械编程演进至具身智能阶段 聚焦多指灵巧手与AI赋能的数据采集和技能学习框架[6] - 灵巧操作依赖模拟器 人类演示和遥操作三种数据采集范式 结合模仿学习和强化学习框架[6] - 面临三大关键挑战 包括高质量数据集缺乏 静态学习框架鲁棒性不足 端到端学习泛化性受限[6][13] 具身导航与操作 - 导航任务从显式记忆转向隐式记忆 操作任务从强化学习拓展至模仿学习 扩散策略及VLA模型[13] - 物理模拟器分为室内型 Habitat AI2-THOR 室外型 CARLA AirSim 和通用型 ThreeDWorld Isaac Sim[12][13] - 操作模拟器包括经典物理引擎 MuJoCo PyBullet 和可微分物理引擎 Dojo Genesis[13] - 评估指标采用成功率 SR 和路径效率 SPL 操作任务使用SO(3)/SE(3)等变表示[13] 具身多模态大模型 - 由具身智能体 大语言模型 GPT系列 大视觉模型 ViT 和视觉语言模型 CLIP 构成基础架构[17] - 覆盖具身感知 导航 交互 仿真四大核心任务 感知分为GPT与非GPT模型 导航分通用与专用模型[17] - 使用Open X-Embodiment和HM3D等数据集 面临跨模态对齐难 计算资源消耗大 领域泛化性弱等挑战[17] 强化学习应用 - 采用RLHF DPO RLVR三种对齐范式 结合PPO和GRPO策略优化算法 通过KL正则约束政策偏移[24][26] - 应用于多模态大语言模型 视觉生成 统一模型和视觉-语言-动作模型四大方向[26] - 评估体系包含集合级 FID 样本级 RLHF奖励 和状态级 KL监控 配套SEED-Bench-R1等基准[26] 遥操作技术 - 系统架构包含人类状态测量 运动重定向 机器人控制和多模态反馈 支持单向或双向操作[30][32] - 运动重定向采用完整动力学模型与简化模型 LIPM 通过ZMP/DCM保证平衡[30] - 应用远程存在和危险作业场景 面临非专家操作门槛高 动态环境适应难 长延迟稳定性差等挑战[33] 视觉-语言-动作模型 - 涵盖80多个近三年发布的VLA模型 涉及架构创新 参数高效训练和实时推理加速等进展[31][34] - 按架构分为单体模型 Monolithic 与分层模型 Hierarchical 从结构与功能双维度分析[39] - 发展历程划分为萌芽 探索和快速发展三阶段 使用互联网图文 视频 仿真和真实机器人数据训练[36] - 应用于类人机器人 自动驾驶 医疗与工业机器人 精准农业和增强现实导航等领域[31]
不及预期的diffusion多模态轨迹输出,能否胜任自动驾驶VLA的角色?
自动驾驶之心· 2025-09-08 07:34
自动驾驶范式演进 - 行业主流从端到端转向VLA(Vision-Language-Action)和世界模型-行为(World Action)两大流派,理想和小鹏完成VLA范式转变,华为和蔚来聚焦直接建模视觉信息到Action输出 [2][3] - 端到端网络通过原始传感器输入直接映射控制量,省去传统感知-预测-规划-控制级联链路,采用高并行低耦合设计,通过数据采集→模型训练→仿真/实车验证闭环实现 [4][5] - 特斯拉提出"日更模型"解决迭代痛点:每日筛选bad case转为训练样本,轻量级微调上一版本模型,实现7×24持续进化,核心挑战是保持既有能力同时无缝注入新知识 [9] 技术融合与创新 - 2023年端到端+VLM(Vision-Language Model)双系统方案兴起,受LLM Scaling Law启示,参数量与数据量放大带来zero-shot/few-shot泛化能力 [11] - VLM早期解决特殊语义识别(如OCR识别公交车道文字、潮汐车道箭头),EMMA架构引入链式推理,用自然语言思考过程辅助控车,推动VLA发展 [12] - VLA+Diffusion融合DiffusionDrive与GoalFlow思想,VLA显式输出Driving Command作为Diffusion初始噪声和条件,最终生成安全平滑车辆轨迹 [14][15][16] 当前挑战与问题 - Diffusion多模态轨迹输出不及预期,开放道路环境数据稀疏且分布不均衡,可控性远逊预期,难以覆盖万景万态 [6][18] - VLA和Diffusion双系统存在脑裂问题,两个大脑学习人驾轨迹可能产生矛盾,虽联合训练但仍存在VLA错误时Diffusion自行弥补导致分歧 [18] - 生成加打分范式对生成器效率要求高,单模态轨迹质量不佳,有限计算资源难以生成覆盖全场景的安全合理轨迹 [18] - 语言模态(L)价值未定,可能产生不可接受幻觉,LA对齐挑战大,需将抽象语言精准映射到三维空间关系 [18] 未来发展方向 - 需要能够scaling的系统方案,双系统不适合scaling,应充分发挥数据优势触发模型scaling能力 [22] - 强化学习需加强基础模型能力,连续空间内自由度太高难调优,轨迹模型建模形式需重新设计 [22] - 生成+打分范式需让轨迹自我反思,DiffusionPlanner用奖励场函数二次优化只是起点,需迭代更多反思手段提升单条轨迹质量 [22]
TrackAny3D:一个模型通吃所有3D单目标跟踪!
自动驾驶之心· 2025-09-08 07:34
核心观点 - TrackAny3D首次将大规模预训练3D点云模型迁移至单目标跟踪任务 通过轻量适配器与几何专家混合网络实现无需类别微调即可统一处理汽车、行人、自行车等多类目标[3] 在KITTI、NuScenes、Waymo数据集上刷新类别统一设定的最佳性能[3][27][28][30] 方法设计 - 采用轻量级双路径适配器动态对齐预训练特征与跟踪任务 保留几何先验并提升学习效率[10][16] - 引入几何专家混合模块(MoGE) 由多个专家子网络根据物体几何特性自适应激活 解决跨类别几何冲突[10][19] - 设计时间上下文优化策略 通过可学习时间令牌传播历史状态 结合动态掩码权重机制校准输入信息[10][22][24][25] 实验结果 - 在KITTI数据集上平均成功率为67.1% 精确率为85.4% 超越所有类别统一方法[27] - 在NuScenes数据集上平均成功率为54.57% 精确率为66.25% 其中Bus类别成功率61.01%超越单类别模型[28][29] - 在Waymo数据集Vehicle类别上平均成功率达64.0% 精确率达73.3% 直接使用KITTI训练模型即实现最佳泛化性能[30][31] 技术优势 - 仅需5.30M参数 推理速度28FPS 在计算效率与性能间取得平衡[27] - 通过预训练模型迁移解决传统方法需为每类别独立训练模型的问题 降低部署成本[8][9] - 动态掩码加权机制无需手动调节超参数 自适应处理不同类别时空变化[25]
当导师让我去看多模态感知研究方向后......
自动驾驶之心· 2025-09-08 07:34
自动驾驶多模态感知融合技术发展现状 - 激光雷达在自动驾驶感知中具有核心优势:提供超长感知距离的安全冗余、高帧率实时感知、恶劣环境抗干扰保障和三维空间认知能力 [1] - 多传感器融合是国内高端智能驾驶量产的主流范式 激光雷达与视觉感知结合构成可靠工作能力 [1] - 多模态感知融合技术正从传统融合向端到端融合和Transformer架构演进 [1] 多模态融合技术架构演进 - 传统融合分为三种方式:早期融合(输入端拼接原始数据 计算量巨大) 中期融合(传感器特征提取后融合 当前主流方案) 后融合(决策层结果融合 可解释性强但难以解决信息冲突) [2] - 基于Transformer的端到端融合成为最前沿方向:通过跨模态注意力机制学习不同模态深层关系 实现高效鲁棒的特征交互 [2] - 端到端训练减少中间模块误差累积 直接从原始传感器数据输出3D目标框 提升动态信息捕捉能力和整体性能 [2] 多模态融合科研培训课程体系 - 课程设计为期14周:包含12周在线小组科研 2周论文指导和10周论文维护期 [10][21] - 招生规模为6人/期 至多8人 采用"2+1"式师资配置(名校教授+行业导师+科研班主任) [5][11] - 硬件要求最低2张4090显卡 推荐4张4090或以上性能设备 支持云服务器租赁 [11] 课程技术内容体系 - 覆盖多模态融合全技术栈:从传统模块化感知系统到BEV视角融合 再到基于Transformer的端到端融合 [15] - 提供完整科研支持:包括公开数据集(nuScenes、KITTI、Waymo Open Dataset)、Baseline代码和论文idea [12][13][14] - 重点讲解激光-视觉深度融合和雷达-视觉-激光三元融合技术 涵盖多任务多传感器融合方案 [15][16] 学术产出与培养目标 - 学员将产出论文初稿 获得结业证书和推荐信(根据优秀程度) [11] - 培养体系解决三大问题:知识体系碎片化 动手能力不足 论文写作投稿困难 [5] - 课程包含完整论文方法论:从选题方法、实验方法到写作方法和投稿建议 [4][10]
自动驾驶黄埔军校,4000人死磕技术的地方~
自动驾驶之心· 2025-09-07 11:08
社区定位与愿景 - 致力于让AI与自动驾驶技术普及化 成为连接企业与高校的桥梁 [1] - 构建涵盖产业 学术 求职 技术交流的完整生态闭环 [1] - 目标为培养未来行业领袖的高质量内容社区 [4] 技术资源体系 - 系统梳理超过40种技术路线 覆盖感知 规划控制 V2X等核心领域 [2][5] - 整合近60个自动驾驶数据集 包括多模态大模型专用数据集 [33] - 提供近40个开源项目资源 涵盖3D检测 BEV感知 端到端方案等 [31] - 汇总数学基础 计算机视觉 深度学习等6大类入门资料 [5] 专家网络与互动 - 聚集数十位产业界与学术界一线专家 包括顶级会议常驻嘉宾 [2] - 已举办超过100场专业直播 涵盖VLA 3DGS 大模型等前沿主题 [80] - 支持成员自由提问 获得职业发展与技术方向的专业解答 [81] 学习体系设计 - 为初学者提供完整技术栈与学习路线图 [8] - 为进阶者提供产业级项目方案与实战资源 [10] - 设计感知/仿真/规划控制三大学习路线 包含BEV 扩散模型等15+子领域 [12][15] 产业覆盖范围 - 成员来自上海交大 清华 CMU等顶尖高校及蔚小理 华为 英伟达等头部企业 [12] - 汇总国内外自动驾驶公司 覆盖RoboTaxi 重卡 新势力等多类企业 [27] - 持续更新求职信息与岗位机会 构建人才与企业的对接平台 [12] 核心技术专题 - 端到端自动驾驶: 整合学术与工业方案 涵盖VLA相关算法 [35] - 3DGS与NeRF: 包含场景重建 仿真应用及学术前沿分享 [37] - 世界模型: 详细梳理技术前沿与业界应用方案 [39] - VLA技术: 覆盖开源数据集 模块化设计 量产讨论等全链条 [43] - BEV感知: 包含纯视觉 多模态方案及工程部署实践 [48]
理想汽车智驾方案World model + 强化学习重建自动驾驶交互环境
自动驾驶之心· 2025-09-07 00:05
自动驾驶仿真技术突破 - 融合几何先验的生成式闭环仿真框架DrivingSphere构建4D世界表示 将静态背景与动态对象融合为占用网格 解决开环仿真缺乏动态反馈及传统闭环仿真视觉真实性问题[8] - 首次结合文本提示与BEV地图驱动3D占用生成 通过场景扩展机制实现城市级静态场景的无限扩展[8] - 通过OccDreamer扩散模型基于BEV地图与文本提示生成城市级3D静态场景 突破传统方法对固定数据集的依赖[17] 多维度仿真能力提升 - 动态环境组成模块通过OccDreamer扩散模型与动作动态管理构建包含静态背景与动态主体的4D驾驶世界[13] - 视觉场景合成模块通过VideoDreamer将4D占用数据转换为高保真多视图视频 支持自动驾驶系统感知测试[21] - 采用时空扩散Transformer(ST-DiT)架构 集成视图感知空间自注意力机制处理多视图特征空间一致性 时间自注意力确保动作连续性[22][26] 闭环反馈机制创新 - 通过自动驾驶代理与模拟环境双向交互形成"代理动作-环境响应"实时循环 支持真实场景算法验证[23] - 交通流引擎实现大规模智能体协同 支持十字路口通行等复杂场景仿真[23][27] - 支持"仿真-测试-优化"迭代流程 通过闭环反馈暴露算法缺陷并指导模型改进[23] 技术整合与论文支撑 - 理想团队在CVPR2025发表四篇论文:StreetCrafter、DrivingSphere、DriveDreamer4D与ReconDreamer 提供自动驾驶场景重建与生成的技术细节[5][30] - 占用标记器使用VQVAE将3D占用数据映射为潜在特征 通过组合损失函数优化重建精度[20] - 条件编码机制整合全局几何特征/智能体ID与位置编码/文本描述嵌入 确保生成视频的语义准确性与外观一致性[26]
自动驾驶中有“纯血VLA"吗?盘点自动驾驶VLM到底能起到哪些作用~
自动驾驶之心· 2025-09-07 00:05
视觉语言自动驾驶模型技术实现 - 模型支持不同数量相机输入 无需明确指定相机数量[2] - 轨迹输出采用文本形式 通过Prompt限制为XY坐标格式[4] - 输出坐标为车辆坐标系相对值 原点为(0,0) 非图像坐标[6] - 使用Python编程进行轨迹格式规范化处理 确保输出符合预期[8] - 通过JSON格式和关键词约束优化未经训练模型的输出效果[9] 数据集构建与处理 - 遇到坐标异常问题 连续多帧坐标相同后出现突变[14] - 不同数据集存在坐标格式差异 包括经纬度与相对坐标[14] - 通过规则化方法剔除不合理轨迹数据[14] - 统一转换为自车坐标系下的相对位移进行数据对齐[18] - 输入为图像和前1.5秒轨迹点 输出未来5秒轨迹点[20] 模型训练与性能 - 经过数据训练后模型输出格式符合性显著提升[8] - 通过QA训练获得多模态轨迹预测和场景理解能力[11] - 具备动态物体轨迹预测能力 包括车辆行人运动预测[11] - 新增端到端预测任务确保数据完整性[20] 社区资源与技术覆盖 - 知识星球涵盖40+技术方向包括多模态大模型和端到端自动驾驶[22] - 社区成员来自头部自驾公司和高校实验室 超4000人规模[24] - 提供近40个技术路线图和学习入门路线[24] - 包含自动驾驶数据集汇总与仿真工具资源[27] - 建立与多家自动驾驶公司的岗位内推机制[29]
自动驾驶之心开学季火热进行中,所有课程七折优惠!
自动驾驶之心· 2025-09-07 00:05
值此开学季之际,我们为大家准备了重磅学习礼包: 1. 重磅推出299元超级折扣卡(一年期有效):购买后,享受全平台课程七折优惠; 2. 自动驾驶之心知识星球立减88; 3. 课程福利放送:满1000元赠送2门带读课程(八选二); 4. 自动驾驶论文辅导1000最高抵扣10000; 5. 自动驾驶1v6小班课限时福利立减1000; 6. 全平台硬件优惠: 全栈教研平台黑武士001 足式/强化学习科研平台:TRON1 四足机械狗+机械臂科研平台 桌面级机械臂科研平台 数采夹爪(单臂+双臂方案) 超级折扣卡 重点介绍下我们最新推出的超级折扣卡!活动期间购买有效, 自购买之日起一年时间内,购买平台任意课程均享受七折优惠,包括后续推出的新课程呦~ 自动驾驶前沿课程 2025年我们重点推荐以下自动驾驶技术方向。 1)端到端与VLA自动驾驶 端到端自动驾驶(End-to-End Autonomous Driving)作为目前智驾量产的核心算法,可以分为一段式端到端、二段式端到端两个大的技术方向。自UniAD获得 CVPR Best Paper以来,正式拉开了国内新一轮的智驾军备竞赛。2024年理想汽车更是宣布E2E+VLM ...
谈谈Diffusion扩散模型 -- 从图像生成到端到端轨迹规划~
自动驾驶之心· 2025-09-06 19:59
扩散模型技术原理 - 扩散模型是一种生成式模型 本质是通过去噪过程学习数据分布 噪音符合特定分布 [1] - 模型原理基于对数据分布的学习和模拟 包含正向扩散过程和反向生成过程 [2] - 开山之作自2020年提出 目前引用量已超过20000次 [2] 扩散模型在自动驾驶领域的应用 - 应用主要集中在数据生成 场景预测 感知增强和路径规划等方面 [11] - 可对连续分布噪音和离散分布噪音进行去噪 适用于决策规划等离散问题 [11] - 在端到端和VLA架构中都发挥重要作用 [11] 端到端自动驾驶课程技术体系 - 课程涵盖多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等核心技术 [21] - 第二章包含大语言模型 BEV感知 扩散模型理论 强化学习与RLHF等关键技术栈 [18][27] - 扩散模型多模轨迹预测成为学术界和工业界追捧的热点 多家公司尝试落地 [33][34] 课程章节内容设计 - 第一章介绍端到端自动驾驶发展历史 技术范式演变及业界动态 [27] - 第二章重点讲解端到端涉及的背景知识 为后续章节奠定基础 [27] - 第三章聚焦二段式端到端 分析PLUTO CarPlanner和Plan-R1等经典与前沿工作 [28] - 第四章深入一段式端到端子领域 包括基于感知 世界模型 扩散模型和VLA的方法 [29] - 第五章设置RLHF微调大作业 提供预训练和强化学习模块的实战指导 [38] 实战项目安排 - 包含Diffusion Planner实战项目 适用于求职应用场景 [33] - 基于小米ORION的VLA实战 揭开自动驾驶VLA神秘面纱 [36] - RLHF微调作业具有良好延展性 可迁移到VLA相关算法中 [38] 技术人才市场需求 - VLA/VLM大模型算法专家薪资达40-70K-15薪 [19] - 多模态VLA大模型方向顶尖技术人才薪资达90-120K-16薪 [19] - VLM/VLA大模型算法工程师薪资35-65K [19] - VLM实习生日薪220-400元 [19] 课程特色与目标 - 基于Just-in-Time Learning理念 帮助学员快速掌握核心技术栈 [22] - 构建端到端自动驾驶研究框架 提升论文分类和创新点提取能力 [23] - 学完可达1年左右端到端自动驾驶算法工程师水平 [43] - 可复现扩散模型 VLA等主流算法框架 应用于实际项目 [46]
为什么多模态感知会是自驾不可或缺的方案...
自动驾驶之心· 2025-09-06 18:01
自动驾驶多模态感知融合技术演进 - 激光雷达提供超长感知距离的安全冗余、高帧率实时感知、恶劣环境抗干扰保障和三维空间认知能力,精准解决自动驾驶感知痛点 [1] - 多传感器融合构成可靠工作能力,高帧率确保动态捕捉实时性,高稠密点云提供细节支撑,三维感知构建全局认知 [1] - 多模态感知融合技术从传统融合方式向端到端融合和基于Transformer架构演进,成为国内高端智能驾驶量产主流范式 [1][2] 多模态融合技术架构发展 - 传统融合分为早期融合(输入端拼接原始数据,计算量巨大)、中期融合(传感器特征提取后融合,主流方案)和后融合(决策层结果融合,可解释性强但难以解决信息冲突) [2] - 基于Transformer的端到端融合通过跨模态注意力机制学习不同模态数据深层关系,实现高效鲁棒的特征交互,减少中间模块误差累积 [2] - BEV视角处理解决不同传感器数据空间对齐难题,并与下游任务无缝连接 [2][4] 多模态融合研究课程体系 - 课程系统覆盖多模态特征提取、端到端自动驾驶、传感器融合和视觉表征学习等关键技术领域 [5] - 招生对象为本硕博群体,每期限招6人(至多8人),需具备深度学习基础和多模态融合算法了解,并通过1v1面试筛选 [5][6] - 硬件要求最低2张4090显卡(推荐4张以上),需掌握Python、PyTorch和Linux开发调试能力 [7] 课程内容与产出 - 课程周期为12周在线科研+2周论文指导+10周论文维护期,提供经典论文、前沿论文和代码实现 [6][26] - 使用公开数据集包括nuScenes、KITTI和ADUULM-360,并提供多模态3D目标检测和BEVFormer等Baseline代码 [13][15] - 学员产出包括论文初稿、项目结业证书和推荐信(视表现而定),重点培养科研流程、写作方法和创新思路 [15][21] 技术应用与前沿方向 - 多模态融合应用于高精度地图构建、自动泊车和恶劣天气鲁棒驾驶等场景,显著提升自动驾驶系统安全性 [4][19] - 未来发展方向包括利用自监督学习和生成式模型弥补标注数据稀缺性,探索多任务学习和知识蒸馏优化模型效率 [19] - 三元融合技术聚焦毫米波雷达、视觉和激光雷达的深度结合,解决标定、同步与异构数据处理等挑战 [4][19]