自动驾驶之心
搜索文档
VLA搞到现在,可能还是情绪价值的内容偏多一些......
自动驾驶之心· 2025-09-21 00:03
端到端自动驾驶技术现状 - 学术界端到端研究呈现方法远多于问题的状态,各种流派百花齐放,只要实现传感器输入到轨迹规划输出的模型串联即符合端到端范式 [1] - 工业界端到端研发更加务实,车载算力限制将许多热门模型排除在外,但工业界拥有海量驾驶数据优势 [4] - 工业界对端到端技术的研发进度可能已领先于学术界,行业已超越依靠演示和论文证明实力的阶段,转向以量产模型表现为衡量标准 [5] 数据集与技术迭代关系 - 大模型时代数据集迭代速度需与技术迭代同步,固定数据集会阻碍技术发展,摩尔定律在算力和计算机行业均有体现 [2] - 研究团队通过发布数据集维持长期的高影响力产出,互联网海量文本数据是NLP领域大模型成功的关键因素 [3][4] - 工业界数据量达天文数字,不存在数据阻碍技术迭代的问题,反而更容易辨别学术界方法的实用价值 [4] 强化学习在VLA中的应用 - 强化学习适用于无标准答案但能定义答案特征的问题,VLA应用场景符合此特点 [7] - 模仿学习基于最大似然估计,倾向于将示范结果视为最优,而强化学习通过奖励机制定义正向和负向行为特征 [8][9] - 强化学习以奖励最大化为目标,避免错误示范干扰,节省数据采集成本,例如车辆平稳抵达+10分,压实线-10分,闯红灯-20分 [9] 视觉语言大模型发展前景 - VLA短期成果情绪价值偏多,真实控车作用尚不明确,长期串联万物成为行业共识趋势 [10][11] - 量产参考需综合算法、数据、训练策略等多重因素,包括部署难度、数据替代性、复现难度等非单一测试指标 [12] - 行业主流厂商对Large Vision-Language Model的潜力均无质疑,焦点集中于实现时间预期 [11]
任少卿加入中科大......
自动驾驶之心· 2025-09-20 13:35
任少卿职业动态 - AI领域专家任少卿开始在母校中国科学技术大学开班招生 [1] - 任少卿曾任Momenta联合创始人、蔚来汽车副总裁 [4] 任少卿学术背景 - 任少卿为07级中科大本硕博(微软亚洲研究院联合培养) [4] - 任少卿是ResNet和Faster R-CNN作者 [4] - 学术高被引超44万,是全球中国籍学者高被引第一 [4] - ResNet是21世纪全球最高被引论文 [4] - 曾获未来科学大奖-数学与计算机科学奖 [4] 招生信息 - 招生方向为AGI、世界模型、具身智能、AI4S等 [6] - 硕士、博士生都在招 [6] - 有推免资格的学生将于下周一(22日)开启紧急面试 [6]
VLA的论文占据自动驾驶前沿方向的主流了。。。
自动驾驶之心· 2025-09-20 00:03
自动驾驶VLA技术趋势 - 视觉语言动作模型及其衍生方向已成为自动驾驶公司和高校实验室的主攻方向,占据了自动驾驶前沿方向近一半的产出[1] - 推理增强VLA、强化学习及相关基准测试是当前重点研究方向[1] - VLA技术打破了传统方法的单任务局限,使自动驾驶车辆能在多样化场景中自主决策,灵活应对未见过的环境[3] - VLA方法更为直白和干净,许多方法取消了传统端到端中复杂的3D感知任务,借鉴了视觉语言模型更强大的通用泛化能力[3] - VLA技术栈尚未收敛,一系列算法如雨后春笋般冒出,导致技术栈多样且入门困难[4] 课程核心价值主张 - 课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例,帮助学员短时间内掌握核心技术栈[5] - 帮助学员梳理自动驾驶VLA的研究发展脉络,掌握领域核心框架,学会将论文分类、提取创新点[6] - 课程配有实战环节,完成从理论到实践的完整闭环[7] - 课程涵盖视觉感知、语言模块、动作模块,配套大模型的前沿技术如RAG/CoT/强化学习/MoE等广泛技术栈[4] - 针对学习挑战,课程提供系统化实战指导,帮助学员从零散论文中提炼框架、掌握领域发展趋势[4] 课程内容体系 - 第一章涵盖自动驾驶VLA算法概念及发展历史,介绍开源BenchMark和常见评测指标[11][12] - 第二章聚焦Vision、Language和Action三个模块的基础知识,讲解大模型与自动驾驶VLA的结合方式[13][14] - 第三章讲解VLM作为自动驾驶解释器的经典和最新算法,包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA等[16] - 第四章深入模块化与一体化VLA,涵盖BEV感知、动静态检测、OCC及轨迹预测等关键技术[17][18] - 第五章聚焦推理增强VLA子领域,讲解长思维链推理、记忆和交互等前沿技术[20][21] - 第六章设置大作业,基于ms-swift框架进行网络构建、自定义数据集和模型训练[23] 实战项目设计 - 第四章实战选取华科和小米最新提出的ReCogDrive,包含预训练、模仿学习训练和强化学习训练三个阶段[19] - ReCogDrive涉及技术栈包含预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等主流范式[19] - 第五章实战选取清华AIR和博世提出的Impromptu VLA,基于开源Qwen2.5 VL进行数据集制作、训练和推理[21] - 大作业部分提供V-L-A各部分的代码解读以及可修改优化的demo,注重学员动手实操能力[23] 师资与学术资源 - 讲师团队包括清华大学硕士生、QS30高校博士在读研究人员,在ICCV/IROS/EMNLP等顶级会议发表多篇论文[24] - 讲师团队拥有丰富的自动驾驶、大模型研发和实战经验,长期维护GitHub开源项目总Star数超过2k[24] - 课程涵盖多所顶尖机构最新研究成果,包括慕尼黑工大OpenDriveVLA、上海交通大学DriveMoE、博世DiffVLA等[26][27] - 覆盖UC Berkeley和Waymo中稿CVPR2025的S4-Driver、华科&小米ICCV2025中稿的ORION等前沿工作[26][27] 技术能力培养目标 - 学员将掌握VLA三大子领域:作为解释器的VLM、模块化&一体化VLA及推理增强VLA[28] - 培养对视觉感知、多模态大模型、强化学习等关键前沿人工智能技术的深刻理解[28] - 达到可复现VLA主流算法的水平,适用于后续科研学习及工程落地需求[28] - 具备将所学应用到项目中,独立设计自己的VLA模型的能力[28]
2025年自动驾驶公司一览表
自动驾驶之心· 2025-09-20 00:03
行业技术发展现状 - 自动驾驶行业正处于L3技术突破的关键迭代周期 端到端 VLA 世界模型 强化学习等技术方向快速发展 [1] - 行业经历新一轮洗牌和资源整合 部分公司退出或合并 新势力异军突起 [1] - 技术演进路径包括2D检测/分割 单目3D BEV感知 多传感器融合 OCC 联合预测 端到端等阶段 [26] 新势力车企布局 - 主要参与者包括蔚来 小鹏 理想 小米 零跑 滴滴 威马 宾理 牛创 极氪 阿维塔 岚图 千里科技 极越等 [3] Tier1供应商生态 - 核心企业涵盖华为 百度 大疆 中兴 腾讯(智能座舱/高精地图/仿真工具链) 上汽零束 鉴智机器人 momenta 博世中国等 [5] Robotaxi领域企业 - 重点公司包括百度 小马智行 上海造父智能科技(哈啰Robotaxi) 文远知行 元戎启行 滴滴 momenta 轻舟智航 驭势科技等 [7] 商用车自动驾驶应用 - Robotruck领域聚集智加科技 赢彻科技 小马智行 主线科技 斯年智驾 西井科技 飞步科技 牧月科技(文远知行) 挚途科技 畅行智能 环宇智行 阿里达摩院 希迪智驾 千挂 行猩 友道智途 卡睿智行 前晨 纬度 吉利远程 恒润 宏景 希迪 擎天智卡等企业 [9] - Robobus主要参与者为百度 文远知行 轻舟智航 商汤绝影 易成 领骏 蘑菇等 [11] - 物流配送场景涵盖美团 阿里达摩院 京东 苏宁 中国邮政 百度Apollo 毫末智行(长城) 威盛电子 新石器 白犀牛 智行者 驭势科技 行深智能 伽智科技 小狮科技 易成等公司 [13] 传统主机厂转型 - 老牌主机厂包括上汽(智己和飞凡) 广汽(埃安) 北汽(极狐) 一汽 长城(毫末智行) 比亚迪 长安+阿维塔 吉利(福瑞泰克) 东风 奇瑞 吉利(极氪等) 长安等 [15] 垂直场景应用拓展 - 农用自动驾驶领域有丰疆智能 中联重科 中国一拖 悟牛智能 中科原动力 雷沃重工 超星智能 博创联动 皓行科技等企业 [17] - 矿区自动驾驶聚集易控智驾 踏歌智行 慧拓智能 路凯智行 伯镭科技 盟识科技 清智科技等公司 [19] - 环卫自动驾驶包括智行者 酷哇 仙途 高仙机器人 深兰科技 浩睿智能 于万智驾 云创智行等参与者 [21] 关键技术支撑体系 - 智能泊车领域涵盖百度 追势 德赛西威 东软睿驰 禾多科技 纽励科技 恒润科技 领世科技 磨视智能 欧特明 智行者 驭势科技等企业 [23] - 计算平台主要供应商包括华为 地平线 黑芝麻 超星未来 国汽智控等 [24] - 高精地图领域有百度 高德 四维图新 腾讯 华为 滴滴 京东 美团 宽凳 深动 中海庭 亿咖通等公司 [25] - 车路协同技术供应商包括蘑菇车联 觉非科技 百度 华为 大唐高鸿 华砺智行 阿里 海康 星云互联 云骥智行等企业 [25]
刚刚,李飞飞空间智能最新成果!3D世界生成进入「无限探索」时代
自动驾驶之心· 2025-09-20 00:03
产品发布与核心功能 - 斯坦福大学教授李飞飞团队通过创业公司World Labs发布空间智能模型Marble限量测试预览版 [4][19] - 模型支持单张图片或文本提示作为输入生成持久存在、可自由导航探索的宏大3D世界 [5][8][18] - 生成内容具备永久性、零成本浏览器导航支持、高斯点云导出与多段拼接能力 [9][21][22] 技术特性与性能提升 - 生成场景规模较以往更大、风格更多样化、几何结构更干净 [21][23][26] - 支持通过组合多个生成结果构建更大世界 得益于模型在一致性和风格遵循上的进步 [22][31] - 生成场景具备丰富几何复杂度 支持从输入视角背后或更远处进行完整探索 [24] 应用生态与兼容性 - 导出高斯点云可在开源渲染库Spark支持下无缝集成Three.js [21] - 兼容桌面电脑、笔记本电脑、移动设备和VR头显运行 [21][12] - 用户测试反馈积极 有建议提及GUI界面连接世界功能优化 [14] 行业影响与定位 - 被行业人士评价为"真正的大规模3D生成" 与谷歌Genie形成差异化竞争 [9][10][11] - 正式将空间智能推向"无限探索"时代 突破房间尺度限制 [3][31] - 目前通过白名单地址开放试用 官方博客提供详细技术细节 [17][33]
毕竟,没有数据闭环的端到端/VLA只是半成品
自动驾驶之心· 2025-09-19 19:24
下一代自动驾驶技术发展趋势 - 下一代自动驾驶技术将围绕更安全的驾驶、更好的乘坐体验和更全面的场景覆盖展开[1] - 行业需要建立更系统、更健全的自动驾驶运营模式,其中软件算法和数据运营是两大核心能力[1] - 未来自动驾驶公司更像"数据驱动的科技公司",竞争重点从算法转向数据闭环效率[2] 技术架构与数据闭环 - VLA/VLM作为影响终端用户体验的车端/云端应用,需要世界模型构建健壮高效低成本的闭环仿真支持[2] - 利用强化学习对VLM/VLA进行闭环训练,持续提高自动驾驶数据运营和应用迭代效率[2] - 没有数据闭环的端到端/VLA只是半成品[5] - Agent simulator、sensor simulator和driving policy闭环已成为行业共识[4] VLA技术应用挑战 - VLA在复杂场景展现强大应用潜力,但在简单场景和安全相关场景可能出现"过度自信"或"常识性错误"[2] - 直接抛弃现有简单场景和安全场景的技术积累全量使用VLA并非成熟选择[2] - DiffVLA等方案旨在帮助VLA方案在E2E+规则基兜底向全面VLA时代过渡期进行滚动迭代[3] 技术发展阶段 - VLA近期研究仍处于输入模态、模型架构等中早期阶段,说明该领域方案尚未收敛[3] - 类似3D Detector技术发展路径:早期讨论数据输入范式,中期讨论模型架构,后期讨论极致优化[3] 行业竞争关键 - 谁能更快解决sim2real的domain gap、更高效搭建闭环训练链路,谁就能引领自动驾驶技术市场[4] - 数据闭环需要强大的自动化工具链和AI驱动的数据流水线支持[2] 技术社区资源 - 自动驾驶之心知识星球已聚集超过4000名从业人员,来自国内外知名高校和头部公司[12][21] - 社区汇总近40+技术路线、近60+数据集、行业主流仿真平台,涵盖感知、规划、控制等全栈内容[12] - 社区提供端到端自动驾驶、VLA、世界模型等热门技术的学习路线和实战指导[8][9]
一个P7,从自驾到具身的转行建议......
自动驾驶之心· 2025-09-19 08:30
文章核心观点 - 一位从自动驾驶领域转行至具身智能领域的资深从业者分享了其经验,认为两个领域在数据、算法和部署优化等方面存在高度相似的方法论,自动驾驶的成熟经验可直接迁移至具身智能领域,以加速解决其发展初期面临的挑战 [1] - 具身智能领域当前面临数据稀缺、算力设备不足等与自动驾驶早期相似的问题,但因其“本体”(机器人硬件)的重要性与脆弱性,需额外关注安全与稳定性问题 [1][6] - 文章重点推介了“具身智能之心知识星球”社区,该社区定位为国内首个具身全栈技术社区,旨在为从业者与初学者提供技术交流、知识汇总、求职对接等全方位支持,并已汇集近2000名成员及众多行业公司与学术机构 [10][17] 关于技术挑战与解决方案 - **数据挑战**:面对数据少、采集成本高的问题,可借鉴自动驾驶的数据闭环和自动标注思路,采用机器人自采集数据并通过算法筛选脏数据的方案,或采用real2sim2real、sim2real等仿真方案 [2] - **算法策略**:商业化应优先采用已验证的成熟技术解决部分场景需求,而非追逐最新技术,例如视觉语言动作模型在智驾和机械臂上可行,但直接应用于人形机器人则难度大,强化学习等已验证方案应优先使用 [3] - **部署与算力**:部署和模型轻量化是强项,现有算力基本足够,按照早期算力发展规律,待数据、算法和本体成熟后,算力还将提升一代 [5] - **本体安全**:与自动驾驶在成熟车体上执行不同,具身智能特别是人形机器人非常注重本体安全,怕摔倒报废,需要借鉴自动驾驶的兜底方案来保证算法部署后的稳定性 [6] 关于行业社区资源 - **社区定位与规模**:“具身智能之心知识星球”是国内首个具身全栈技术社区,集视频、图文、学习路线、问答、求职交流于一体,目前已有近2000名成员,目标未来2年内达到近万人规模 [10][84] - **社区内容覆盖**:社区汇总了超过30条技术路线、近40个开源项目、近60个数据集及行业主流仿真平台,内容涵盖数据采集、灵巧手、视觉语言动作模型、仿真到现实迁移、世界模型、大模型推理加速等具身智能全栈技术 [11][17] - **成员与机构构成**:社区成员来自斯坦福大学、清华大学、上海交大等国内外知名高校实验室,以及智元机器人、有鹿机器人、优必选、小米等近200家具身智能公司与机构 [17] - **附加资源与服务**:社区提供国内外高校与公司汇总、行业研报、机器人书籍、零部件品牌信息、开源项目、数据集、仿真平台汇总等资源,并建立了与多家公司的岗位内推机制 [18][22][24][27][29][31][39]
上交严骏驰团队:近一年顶会顶刊硬核成果盘点
自动驾驶之心· 2025-09-19 07:33
文章核心观点 - 上海交通大学严骏驰教授团队在CVPR、ICLR、NeurIPS等顶级会议上发表了一系列开创性研究,代表了人工智能领域的硬核突破 [2] - 团队研究工作聚焦于AI技术的核心挑战,包括提升机器人复杂任务能力、使AI在工业决策中超越人类专家、为黑盒模型建立坚实理论根基 [2] - 这些研究成果展示了未来AI研究的三大关键趋势:理论与实践的深度融合、AI对传统科学计算的颠覆性重塑、以及迈向更鲁棒高效自主的智能系统 [32] - 团队工作具有高度可复现性和可落地性,有望演变为更聪明的机器人、更强大的设计工具和更高效的商业解决方案 [32] CVPR 2024研究成果 - 提出基于网格的神经场模型系统性理论框架,引入网格切线核概念分析模型的近似和泛化行为 [4] - 开发MulFAGrid模型,通过联合优化核参数和网格特征的自适应学习方案,在欠拟合和过拟合极端间取得平衡 [5] - 在2D图像拟合任务中达到56.19 PSNR,在3D有符号距离场重建任务中达到0.9995 IoU和4.51法向角误差,在NeRF基准测试中PSNR高达30.12 [5] ICLR 2025研究成果 - 提出CR2PQ连续相对旋转位置查询方法,解决密集视觉对比学习中跨视图像素对应问题 [7] - 在COCO数据集上,仅用40个预训练epoch就比SOTA方法获得10.4% mAP^bb和7.9% mAP^mk的显著提升 [7] - 开发BTBS-LNS二进制紧缩分支搜索方法,在MIPLIB2017基准测试中比Gurobi提供10%更好的原始间隙 [10][11] - 提出结构化宇宙图学习方法结合异常值OOD检测,在Pascal VOC和Willow Object数据集上持续优于最先进方法 [12][13] SIGKDD 2025研究成果 - 提出BiQAP神经双层优化框架,通过修改输入实例挖掘深度网络在纯数值二次分配问题上的潜力 [15] - 内层优化使用熵正则化求解修改后的实例,外层优化处理原始QAP的二次目标函数 [15] NeurIPS 2024研究成果 - 提出Fast T2T优化一致性方法,实现扩散模型在组合优化中的快速单步求解,仅用一步生成和一步梯度搜索就超越需要数百步的SOTA扩散方法 [16][17] - 开发CLOVER闭环视觉运动控制框架,在CALVIN基准上比开环方法提升8%,实际机器人长时域操作任务完成长度提升91% [19][20] - 提出AdaptiveDiffusion无训练自适应扩散方法,通过有界差分近似策略实现2-5倍加速而无质量降低 [23][24] TPAMI 2024研究成果 - 提出EasyDGL易用流水线,实现连续时间动态图学习中编码、训练和解释的统一框架 [29] - 包含时间点过程调制的注意力架构编码模块、原则化损失训练模块和图傅里叶域扰动分析解释模块 [29] - 在公共基准上显示优越性能,能有效量化模型从演化图数据中学习的频率内容的预测能力 [30]
纯视觉最新SOTA!AdaThinkDrive:更灵活的自动驾驶VLA思维链(清华&小米)
自动驾驶之心· 2025-09-19 07:33
自动驾驶VLA技术突破 - 提出AdaThinkDrive框架 通过双模式推理机制实现自适应思考 在简单场景采用快速回答模式 在复杂场景启用慢速思考模式[3][4][11] - 基于强化学习的自适应思考奖励策略 结合GRPO算法优化模型选择性应用CoT的行为 实现准确率与效率平衡[4][33][34] - 在Navsim基准测试中PDMS达到90.3 较最佳纯视觉基线模型提升1.7分 推理时间较"始终思考"基线减少14%[4][50][58] 技术实现细节 - 采用三阶段训练流程:大规模驾驶数据预训练获取世界知识与驾驶常识 双模式SFT数据集微调 强化学习优化自适应推理策略[17][24][31] - 输入包含前视图像、导航指令、自车状态及历史轨迹 支持思考与非思考两种推理模式联合分布输出[21][26][32] - 奖励设计包含PDMS奖励、格式奖励、端点奖励和自适应思考奖励四组件 加权整合优化策略模型[34][35][36][37][38] 性能验证结果 - 在Navsim数据集验证 较"永不思考"基线PDMS提升2.0分 较"始终思考"基线提升1.4分 在96%复杂场景启用CoT 84%简单场景采用直接预测[4][56][58] - 仅视觉输入性能与多模态方法GoalFlow相当 PDMS达90.3 Best-of-N规划策略下进一步提升至93.0创基准最高分[50][55] - 消融实验显示预训练阶段使PDMS提升1.3分 强化学习阶段进一步提升2.8分 自适应思考奖励是关键组件[63][64][65] 行业技术背景 - 自动驾驶系统向端到端架构演进 VLM模型通过大规模预训练提升场景理解能力 CoT技术增强可解释性与轨迹质量但存在简单场景过度推理问题[7][10][14] - 现有自适应CoT触发方法主要基于强化学习 分为简洁推理、动态早期终止和按需推理三类 需根据高速公路巡航或路口拥堵等不同场景复杂度调整[16][33] - InternVL3-8B作为基础模型 训练使用64块NVIDIA H20 GPU 三阶段学习率从1×10⁻⁵逐步降至2×10⁻⁶[48][52]
当前的自动驾驶VLA,还有很多模块需要优化...
自动驾驶之心· 2025-09-18 19:00
VLA技术发展趋势与行业动态 - VLA成为2024年自动驾驶领域主流关键词,工业界加速量产上车,学术界持续刷新比赛榜单[1] - 相比传统增加/删除问题案例的迭代方案,VLA利用大模型泛化能力提供了摆脱无尽corner case的可能性[1] - VLA技术发展涵盖模块化、一体化、推理增强等多个方向,但仍需优化模块对齐、车端思维链和空间理解等关键问题[1] 自动驾驶技术演进路径 - 端到端自动驾驶将传感器原始输入直接映射到车辆控制指令,替代传统多模块级联架构[2] - 传统模块化架构(L2-L4级)具有逻辑清晰和可解释性优势,但存在错误累积效应和信息损失等瓶颈[3] - 纯视觉端到端模型通过模仿学习实现像素到行为映射,但面临黑箱问题、因果混淆和泛化能力受限等挑战[3][4] - VLA范式将语言作为中间表征,赋予模型推理、解释和交互能力,标志着向通用人工智能驾驶代理的演进[5] VLA技术核心价值 - VLA模型通过视觉-语言-行为的闭环实现可解释决策,能用自然语言解释决策依据[5] - 模型利用LLM预训练获得的世界知识和常识,提升对复杂交通场景的理解能力[5] - 语言抽象和推理能力增强模型泛化性能,使其能更好地处理未见过的长尾场景[5] - VLA实现自然的人机交互功能,用户可通过自然语言下达高级驾驶指令[5] 论文辅导课程体系设计 - 课程采用12周在线小组科研+2周论文指导+10周论文维护期的教学模式[7][14] - 围绕语言模型解释器、模块化VLA模型、统一端到端VLA模型、推理增强VLA模型四大研究方向[7] - 提供经典论文与前沿论文分析、代码实现、创新点挖掘和数据集应用等全方位支持[7][12] - 学员将获得选题方法、实验方法、写作方法和投稿建议等系统化科研能力培养[6] 课程实施与资源保障 - 采用2+1多师制教学团队,主导师负责授课,副导师提供全程辅助,班主任跟踪学习进度[23] - 课程涵盖从传统端到端自动驾驶到VLA范式的完整技术演进内容,共14周系统学习[8][10][26] - 提供公开数据集如nuScenes、Waymo、Argoverse等,以及多个开源Baseline代码库[23][24] - 配备必读论文清单,包括Senna、SimLingo、OpenDriveVLA、ORION等前沿研究成果[25] 学员收获与能力提升 - 学员将掌握经典及前沿论文分析方法,理解重点算法原理与优劣势对比[7][14] - 即使没有自研idea,导师会为每位学员提供定制化研究思路[7][14] - 通过Baseline代码和数据集实践,显著提升Coding能力和实验效率[7][14] - 最终产出论文初稿,形成完整的研究成果输出[15] 招生要求与学术标准 - 课程每期限招6人,最多不超过8人,确保教学质量[11] - 学员需具备深度学习基础、自动驾驶算法了解和Python编程能力[16] - 硬件要求最佳配置为8张4090显卡,最低不少于4张4090显卡设备[20] - 学习要求包括每周课前阅读、按时完成作业、全勤参与和学术诚信[20]