自动驾驶之心

搜索文档
为什么多模态感知会是自驾不可或缺的方案...
自动驾驶之心· 2025-09-06 18:01
自动驾驶多模态感知融合技术演进 - 激光雷达提供超长感知距离的安全冗余、高帧率实时感知、恶劣环境抗干扰保障和三维空间认知能力,精准解决自动驾驶感知痛点 [1] - 多传感器融合构成可靠工作能力,高帧率确保动态捕捉实时性,高稠密点云提供细节支撑,三维感知构建全局认知 [1] - 多模态感知融合技术从传统融合方式向端到端融合和基于Transformer架构演进,成为国内高端智能驾驶量产主流范式 [1][2] 多模态融合技术架构发展 - 传统融合分为早期融合(输入端拼接原始数据,计算量巨大)、中期融合(传感器特征提取后融合,主流方案)和后融合(决策层结果融合,可解释性强但难以解决信息冲突) [2] - 基于Transformer的端到端融合通过跨模态注意力机制学习不同模态数据深层关系,实现高效鲁棒的特征交互,减少中间模块误差累积 [2] - BEV视角处理解决不同传感器数据空间对齐难题,并与下游任务无缝连接 [2][4] 多模态融合研究课程体系 - 课程系统覆盖多模态特征提取、端到端自动驾驶、传感器融合和视觉表征学习等关键技术领域 [5] - 招生对象为本硕博群体,每期限招6人(至多8人),需具备深度学习基础和多模态融合算法了解,并通过1v1面试筛选 [5][6] - 硬件要求最低2张4090显卡(推荐4张以上),需掌握Python、PyTorch和Linux开发调试能力 [7] 课程内容与产出 - 课程周期为12周在线科研+2周论文指导+10周论文维护期,提供经典论文、前沿论文和代码实现 [6][26] - 使用公开数据集包括nuScenes、KITTI和ADUULM-360,并提供多模态3D目标检测和BEVFormer等Baseline代码 [13][15] - 学员产出包括论文初稿、项目结业证书和推荐信(视表现而定),重点培养科研流程、写作方法和创新思路 [15][21] 技术应用与前沿方向 - 多模态融合应用于高精度地图构建、自动泊车和恶劣天气鲁棒驾驶等场景,显著提升自动驾驶系统安全性 [4][19] - 未来发展方向包括利用自监督学习和生成式模型弥补标注数据稀缺性,探索多任务学习和知识蒸馏优化模型效率 [19] - 三元融合技术聚焦毫米波雷达、视觉和激光雷达的深度结合,解决标定、同步与异构数据处理等挑战 [4][19]
自动驾驶秋招大批量开始了(蔚小理/博世/地平线等)
自动驾驶之心· 2025-09-06 00:03
自动驾驶行业招聘动态 - 行业进入秋招旺季 包括蔚小理 博世 地平线 Momenta等多家企业已官宣招聘会 [1] - 行业招聘规模扩大 企业通过招聘会形式进行大批量人才招募 [1] - 行业社群互助机制形成 通过建立秋招互助群促进人才交流 [1]
最近,自动驾驶的需求已经疯掉了......
自动驾驶之心· 2025-09-06 00:03
社区概况 - 自动驾驶之心知识星球是一个专注于自动驾驶技术的综合类社区 集视频、图文、学习路线、问答和求职交流于一体 目前成员超过4000人 预期未来2年内规模达到近万人[5] - 社区成员主要分布在头部自动驾驶/具身智能/互联网公司、Top高校实验室和传统机器人公司 形成工业界与学术界互补的态势[3] - 社区覆盖近40个技术方向 包括多模态大模型、VLM、VLA、闭环仿真、世界模型、扩散模型、端到端自动驾驶、规划控制和多传感器融合等前沿领域[3][5][8] 技术资源体系 - 汇总近40+技术路线 包括BEV感知、3D目标检测、Occupancy Network、轨迹预测、多传感器融合和在线高精地图等量产核心技术[5][39][40][43][44] - 整理近60+自动驾驶数据集 涵盖通用CV数据集、感知数据集、VLM预训练/微调数据集和强化学习数据集[13][30] - 提供全栈学习课程 包括数学基础、计算机视觉、深度学习、编程和经典书籍 适合0基础入门[7][9][29] 行业交流与合作 - 与蔚小理、地平线、华为、大疆、百度等近300家自动驾驶公司建立内推机制 直接对接岗位招聘[9][13][64] - 不定期邀请一线学术界和工业界大佬开展直播分享 目前已举办超过100场专业技术直播[57] - 社区汇集上海交大、清华大学、CMU、ETH等国内外知名高校实验室资源 提供学术进展和产业应用交流平台[13][28] 内容服务体系 - 提供七大福利视频教程 覆盖世界模型、自动驾驶大模型、Transformer和3D目标检测等热门领域[54] - 开设"100问"系列专题 包括TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制面试和BEV感知等工程实践内容[7] - 梳理端到端自动驾驶量产方案 涵盖一段式/二段式架构、VLA算法和闭环仿真结合等工业应用[31][36]
AI Agents与Agentic AI 的范式之争?
自动驾驶之心· 2025-09-06 00:03
AI智能体技术演进历程 - ChatGPT于2022年11月发布彻底改写AI发展轨迹 引发AI Agents和Agentic AI搜索热度飙升[2][4] - 早期专家系统如MYCIN(70年代)依赖符号推理和预设规则 缺乏学习能力和环境适应性[10] - 多智能体系统(MAS)和BDI架构(1999年)实现分布式问题解决 但仍受预编程限制[11] - 2023年AutoGPT等框架标志AI Agents落地 结合LLM与外部工具实现多步骤任务自主执行[12] - 2023年底CrewAI等系统推动进入Agentic AI阶段 多专业智能体协同分解复杂目标[12] - 谷歌2025年推出A2A协议 制定五大核心原则解决智能体互操作问题[12] AI Agents核心技术架构 - 定义为LLM和LIM驱动的模块化系统 填补生成式AI"只会说不会做"的空白[13] - 具备三大核心特征:自主性(无需人工干预) 任务特异性(专注单一领域) 反应性(适应动态变化)[16][17] - LLM作为推理决策中枢 承担目标解析 步骤分解和工具调用协调功能[21] - LIM扩展视觉感知能力 例如果园巡检AI实时识别病果和断枝并触发警报[21] - 工具集成通过"调用-结果整合"流程解决LLM知识滞后和幻觉问题[19] - ReAct框架实现推理与行动交替进行 例如ChatGPT网页搜索先判断知识缺口再调用工具[19] - Anthropic的"Computer Use"项目实现目标-行动-观察循环 控制鼠标键盘完成软件测试等任务[18] Agentic AI系统级创新 - 实现从孤立执行到协同决策的范式转变 核心在于多智能体协作解决复杂任务[24][27] - 与AI Agents关键差异体现在:广泛自主性 复杂任务协调 多智能体信息共享和跨环境学习能力[28] - 智能家居案例展示系统级智能:天气预测 能源管理和安防智能体协同实现全局目标[29] - 架构依赖两大支柱:协调层(元智能体负责任务分配和冲突解决) 共享记忆(存储任务进度和上下文)[33][36] - 动态任务分解将高级目标拆分为子任务 分配给专业智能体避免效率低下[33] - 科研助手AutoGen框架实现多智能体分工:检索 总结 整合 写作和引用智能体协同撰写综述[37] - 医疗决策支持系统集成监测 病史 治疗和协调智能体 降低误判风险并减少医生认知负担[38] 应用场景与典型案例 - AI Agents适用于客户服务 邮件筛选 内容推荐和日程管理等标准化任务[41] - Agentic AI在科研 农业 医疗和网络安全等复杂动态环境中展现优势[43] - 果园采摘场景实现多机器人协同:无人机测绘 采摘机器人 运输机器人和路径规划智能体联动[37][43] - 自动化基金申请书撰写通过多智能体协同完成文献分析 合规匹配和格式规范[43] - 企业网络安全事件响应由智能体分别处理威胁分类 合规分析和缓解方案制定[43] - ICU临床决策支持系统同步执行诊断 治疗方案制定和EHR分析 提升医疗安全性[43] 技术挑战与解决方案 - AI Agents存在因果推理缺失 LLM幻觉 知识滞后 提示敏感性和长期规划弱等痛点[50] - Agentic AI新增误差传递 协调瓶颈 涌现行为不可预测和可解释性差等挑战[50] - 十大解决方案包括:RAG提供实时外部知识 ReAct框架强化推理行动循环 因果建模区分相关性[49][52][53] - 共享记忆架构解决信息同步 元智能体协调避免混乱 工具验证机制自动修正错误[53] - 反思机制赋予自我批判能力 监控审计pipeline记录决策日志 治理架构防范安全风险[53] 未来发展方向 - AI Agents进化重点:提升主动推理能力 深化工具集成(结合机器人硬件) 强化因果推理[57] - Agentic AI突破方向:规模化多智能体协作(支持上千智能体) 领域定制化 伦理治理[57] - Absolute Zero框架探索零数据学习 实现自我驱动式的科研假设生成和验证[57] - 终极目标是从自动化工具进化为人类协同伙伴 适应高风险领域共同决策[58] - 需突破因果推理深度化 可解释性透明化和伦理安全体系化三大瓶颈[59]
某新势力的智驾赛马
自动驾驶之心· 2025-09-06 00:03
公司智驾团队人事变动 - 某新势力智驾部门出现两派内部竞争 一派由智驾一号位领导 专注于传统手写规则技术 另一派由世界模型负责人领导 由近两年空降的前沿算法人才和产品总监组成[7] - 世界模型负责人获得大BOSS直接支持 绕过智驾一号位直接汇报 并掌握最核心的前沿算法资源 导致内部形成"东升西落"权力格局[7] - 该团队曾于数年前出现类似赛马情况 当时三股研发力量相互掣肘导致算法研发受阻 后通过引入明星大牛统一技术框架才实现突破[7] 技术路线演变影响 - 智驾行业技术路线变更通常引发技术人才洗牌 但主要影响技术中层和大头兵 罕有波及智驾一号位层级[7] - 明星大牛时期通过重构技术框架取得业界拔尖成绩 但继任者领导期间智驾发展趋于平淡 既未掉队也未突破 促使公司重新倾向前沿算法路线[8] - 公司当前资源投入明显向世界模型团队倾斜 旨在通过前沿算法重现技术领先地位[7][8] 组织架构不确定性 - 智驾一号位未来任职存在不确定性 其管理权威受到直接向最高层汇报的世界模型负责人挑战[7] - 当前人事架构延续了该新势力历史上存在的内部赛马模式 这种结构曾导致研发效率低下[7] - 团队稳定性面临考验 历史类似情况最终以非主导派系人员陆续离职收场[8]
筹备了很久,下周和大家线上聊一聊~
自动驾驶之心· 2025-09-05 15:50
社区活动与交流 - 计划举办线上交流活动 针对自动驾驶多个技术方向收集问题并进行交流 [1] - 社区成员主要分布在头部自驾公司 互联网公司 Top高校实验室和传统机器人公司 形成工业界和学术界互补的态势 [3] - 社区已建立超过100场专业技术直播 邀请学术界和工业界大佬分享最新研究成果 [52] 社区规模与内容 - 自动驾驶之心知识星球目前拥有超过4000名成员 目标在未来2年内达到近万人规模 [5] - 社区内容涵盖近40个自动驾驶技术方向 包括多模态大模型 VLM 端到端自动驾驶 规划控制 多传感器融合等 [3][5] - 社区提供视频 图文 学习路线 问答和求职交流为一体的综合服务 并梳理了40+技术路线 [5] 技术资源与学习 - 汇总近40+开源项目 近60+自动驾驶数据集 行业主流仿真平台以及各类技术学习路线 [12] - 提供全栈方向学习课程 适合0基础入门 同时为进阶者提供产业体系和项目方案 [8][10] - 社区内部包含自动驾驶感知 仿真 规划控制等学习路线 以及VLA 多模态大模型等前沿技术内容 [12][13] 行业合作与就业 - 与多家自动驾驶公司建立岗位内推机制 帮助成员将简历送至心仪公司 [8] - 社区成员来自国内外知名高校和头部企业 包括上海交大 清华大学 CMU 蔚小理 地平线 华为 英伟达等 [12] - 提供求职交流 行业机会挖掘 投资与项目对接等服务 [16] 技术方向覆盖 - 详细梳理端到端自动驾驶 VLM VLA 世界模型 扩散模型 BEV感知 3D目标检测等多领域内容 [25][26][28][29][31][34][36] - 涵盖规划控制 多传感器融合 在线高精地图 Occupancy Network 轨迹预测 强化学习等关键技术 [32][37][38][40] - 包括传感器标定 模型部署 CUDA 仿真框架等工程实践内容 [7][43][46] 直播与专家分享 - 直播内容覆盖VLA 3D检测 扩散模型规划器 神经符号系统等前沿话题 [52] - 邀请学术界和工业界专家分享最新研究成果 如Impromptu VLA DetAny3D模型等 [52] - 提供超过100场专业技术直播 部分内容可反复观看 [52]
VLA和World Model世界模型,哪种自动驾驶路线会胜出?
自动驾驶之心· 2025-09-05 07:33
自动驾驶技术路线对比 - 目前95%以上的世界模型用于生成视频以训练自动驾驶系统而非直接控制车辆 VLA技术已实现量产上车[3] - VLA本质属于模仿学习 依赖语言作为中间转换层 世界模型则采用类脑学习机制 跳过语言层直接输出动作 实现真正端到端控制[3] - 世界模型基于抽象层级理解与预测物理现实 具备因果推理和零样本学习能力 无需标注数据即可学习[4] 技术理论框架演进 - 世界模型理论可追溯至1994年 核心架构包含Vision Model、Memory RNN和Controller三大模块 采用VAE进行视觉特征提取[11] - 2019年演进为RSSM架构 结合确定性与随机性组件 在防止模型随意发挥的同时提升容错性[13][15] - 2023年提出JEPA架构 通过自我监督学习预测抽象状态而非像素细节 大幅降低计算需求 V-JEPA2于2025年6月发布[17] 模型训练与数据特性 - V-JEPA2预训练使用超100万小时无标注网络视频 仅用62小时机器人影片进行微调即可实现零样本任务执行[19] - 世界模型优势在于非逐像素计算降低运算资源需求 且训练完全无需标注数据 可直接利用网络资源[19] - 极端场景数据稀缺问题可通过虚拟仿真生成补充样本 结合域适应技术减少模拟到真实的性能差距[19] 技术瓶颈与挑战 - 传感器信息局限导致物理世界表达不完整 当前摄像头与激光雷达无法模拟人眼事件相机式的高效信息捕捉机制[20] - 表征崩溃现象使模型生成无意义向量 需通过正则化技术控制模型复杂度 但会限制因果关系学习能力[21] - 长期预测存在误差累积问题 多步预测可能导致严重偏离 需采用半监督与教师强制策略结合进行校正[21] - 世界模型缺乏可解释性 决策异常难以溯源 且易受对抗攻击影响 存在安全性隐患[22] 融合发展趋势 - VLA可通过强化学习微调吸收世界模型优点 典型案例如博世IRL-VLA采用逆向强化学习奖励世界模型[22] - 地平线SENNA VLA基于META小羊驼模型 阿里达摩院WorldVLA均体现VLA与世界模型相互增强的趋势[27][28] - 行业判断结合世界模型增强的VLA将成为主流技术路线 纯世界模型因可解释性等问题难以单独量产应用[30]
关于3D/4D 世界模型近期发展的总结和思考
自动驾驶之心· 2025-09-05 07:33
具身智能与3D/4D世界模型研究现状 - 行业前三季度研究重点集中在数据收集和利用效率上 旨在通过视频示例数据训练高性能基础模型 但进展有限且未引起广泛关注[3] - 行业开始重新关注3D/4D世界模型 通过对数据合理性和丰富性进行拓展优化来突破当前瓶颈[3] 隐式与显式世界模型技术路线 - 隐式3D世界模型通过提取3D/4D内容增强视频空间理解能力[7] - 显式3D世界模型需显式提供3D Mesh或结构信息及物理规律来保证系统稳定性[7] - 两种技术路线在应用初期均暴露明显局限性 且行业尚未找到有效解决方案[6] 基于仿真器的物理差异化模拟器 - 当前显式世界模型研究集中于静态3D场景 通过模型构建场景或扫描方式初始化3D环境[8] - Hunyuanworld-1.0和Matrix-3D通过构建全景图及恢复3D Mesh场景完成环境初始化[8] - Discoverse和EmbodiedGen采用前景背景分离构建方案 背景使用全景/扫描3D 前景采用Mujoco物理仿真+3DGS渲染实现动态交互[8] - Genesis通过Taichi对Mujoco素材进行再渲染实现超高清场景重建[8] 3DGS技术挑战与优化方向 - 3DGS对物理表面建模效果存在缺陷 SuGaR和2DGS等结构化改造方案仍存在几何优化粗糙问题[9] - GSDF和Pano2Room将Mesh或SDF作为监督学习中的优化目标 部分解决表面平滑问题但无法保障生成质量[9] - 完全弃用3DGS可能导致图形学问题 如渲染饱和度过高和光照不平衡[9] - 光照优化通过De-lighting技术(如TSGS、GS-ID)推进 表面问题通过Mesh监督结合结构化处理3DGS方案改善[10] 跨平台部署与数据规模化挑战 - 现有方案物理参数基于Mujoco设定 跨平台部署至Isaac或SAPIEN存在兼容性问题[10] - Roboverse设计统一跨物理仿真器平台以优化世界模型的物理表达[10] - Phys-diff-simulator范式面临大规模数据扩展难题 当前数据量远不足支撑模仿学习需求[10] 视频生成与多视角世界模型融合 - 通义万相模型证明规模化数据清洗和标注可提升运动预测能力[11] - Feed forward 3D技术强化3D信息预测 推动3DGS/4DGS与世界模型结合(如GWM和Enerverse)[11] - Dust3R、Mono3R等技术演进至VGGT 实现单/少帧到稠密几何的一站式推理[11] - Robot4DGen开启模仿学习3R时代 通过3R/3DGS技术补足视频中无法学习的3D空间知识[11] 2D转3D技术瓶颈 - 当前技术存在遮挡像素漂移、跨视角一致性不足等核心问题[12] - 视频动作空间不同步问题通过pixel-worldmodel scaling-up思路部分弥补[12] 4D生成技术分类与应用局限 - Template-base:以静态网格/骨架等模板为基础 通过轨迹预测实现4D生成[13] - Generate-base:通过文本/图像生成3D模型 再绑定视频运动数据构建4D模型[19] - 视频反演:从交互视频反演几何与物理参数得到可模拟4D内容[19] - 4D生成技术评价指标局限于重建画质和几何一致性 缺乏物理交互状态变化的量化评估[14] - 视频生成模型难以理解物理变化规律 仅能学习轨迹变化(如篮球运球中的状态不连贯)[14] 物理规律理解与仿真器融合趋势 - 视频生成模型短期内难以从数据反演物理规律 仿真器物理驱动模拟仍不可替代[15] - 未来可能发展仿真器-视频生成组合方案(如RoboTransfer) 但会限制视频生成模型进化为世界模型的潜力[15] 3D/4D世界模型发展定位与方向 - 当前3D/4D工作重点在几何一致性与图像质量 而非世界模型核心的预测能力(对比V-JEPA 2体系)[16] - 未来三年行业将朝外挂/内嵌物理知识方向发展 通过打破数据瓶颈重塑Real2Real具身智能任务[16] - 世界模型可能演变为具身智能基模中的模块化组件 取决于功能简化与定义优化进程[16]
开学了,需要一个报团取暖的自驾学习社区...
自动驾驶之心· 2025-09-05 07:33
发offer的是业内一家tier 1公司,测试的岗位。受限于研究生期间做的工作,转感知算法还有一些困难,剩下两个月的时间,还是打算冲一把到算法岗,平时跟着 自动驾驶之心一直学习前沿的算法,觉得自己还是有机会的。 很开心,这位同学没有放弃自己,有时候不逼自己一把是不知道自己的极限在哪里! 值此开学季之际,我们也为大家准备了重磅学习礼包: 对于秋招的小伙伴来说应该比较关键,金九银十正式开启了。这两天有个同学联系柱哥说已经拿到了一个offer,但却开心不起来。 1. 重磅推出299元超级折扣卡(一年期有效):购买后,享受全平台课程七折优惠; 2. 自动驾驶之心知识星球立减88; 3. 课程福利放送:满1000元赠送2门带读课程(八选二); 4. 自动驾驶论文辅导1000最高抵扣10000; 5. 自动驾驶1v6小班课限时福利立减1000; 6. 全平台硬件优惠: 全栈教研平台黑武士001 足式/强化学习科研平台:TRON1 四足机械狗+机械臂科研平台 桌面级机械臂科研平台 数采夹爪(单臂+双臂方案) 超级折扣卡 重点介绍下我们最新推出的超级折扣卡!活动期间购买有效, 自购买之日起一年时间内,购买平台任意课程均享受七 ...
自动驾驶超视距VLA如何实现?小鹏NavigScene另辟蹊径!
自动驾驶之心· 2025-09-05 07:33
文章核心观点 - 小鹏汽车团队提出NavigScene系统 旨在解决自动驾驶领域局部感知与全局导航信息脱节的关键瓶颈 通过导航引导的自然语言数据集和三种创新方法实现超越视觉范围的推理能力 显著提升自动驾驶系统的感知、预测和规划性能 [3][4][9] 技术方案 - NavigScene构建导航引导的自然语言数据集 在自动驾驶系统内部仿真类人化驾驶环境 弥合局部传感器数据与全局导航信息之间的差距 [4][5] - 开发导航引导推理范式 通过将导航上下文融入提示方法增强视觉语言模型的推理能力 [5] - 采用导航引导偏好优化方法 扩展直接偏好优化技术 通过建立导航相关信息摘要的偏好关系改进视觉语言模型响应 [5] - 创建导航引导视觉-语言-动作模型(NVLA) 通过特征融合将导航引导和视觉语言模型与传统端到端驾驶模型集成 [5] 应用价值 - 系统显著提升自动驾驶在基于局部视觉信息的问答、感知、预测和规划方面的性能 为构建更可靠的自动驾驶系统奠定基础 [4][9] - 使自动驾驶系统具备"高瞻远瞩"的导航思维 突破当前系统只能"看清"周围却难以"预见"远方道路与决策的限制 [3] - 研究成果以论文形式发布 标题为《NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving》 [6] 内容安排 - 直播将涵盖自动驾驶研究问题简介 导航数据集的视觉生成和文本生成 基于导航数据集的多模态大模型后训练 以及视觉-语言-动作模型等核心内容 [10] - 技术分享由NavigScene论文第一作者Qucheng Peng主讲 深度解析团队如何开创性弥合局部感知与全局导航的鸿沟 [3]