Workflow
自动驾驶之心
icon
搜索文档
课程+软件+硬件!你的第一款小车,自动驾驶全栈技术平台黑武士001
自动驾驶之心· 2025-11-08 00:04
产品发布与定位 - 公司正式推出面向科研与教学领域的自动驾驶全栈小车“黑武士系列001”,并开启预售 [1] - 产品定位为教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台 [2] - 产品支持二次开发和改装,预留了众多安装位置和接口,可加装相机、毫米波雷达等传感器 [3] - 目标用户群体包括本科生学习进阶与比赛、研究生科研与论文发表、高校及职业院校实验室教具等 [5] 硬件配置 - 主要传感器配置包括Mid 360 3D激光雷达、镭神智能2D激光雷达、奥比中光深度相机(自带IMU) [22] - 主控芯片采用Nvidia Orin NX 16G,配备1080p显示器,底盘系统为阿克曼底盘 [22] - 车体结构采用钣金件,材料为硬铝并经过发黑处理 [23] - 主控平台核心为NVIDIA Jetson Orin NX开发板,提供16GB RAM及100TOPS的AI算力 [32] 性能参数 - 自车重量为30kg,结构部分采用铝合金/不锈钢钣金加CNC加工 [25] - 电池功率50w,供电电压24V,续航时间大于4小时 [25] - 运动速度可达1.5米/秒,最大可至2米/秒,载荷能力为30kg [25] - 车体尺寸为长620毫米、宽400毫米、高320毫米 [26] 软件与功能 - 软件基于ROS框架,支持C++和Python语言,提供一键启动和开发环境 [28] - 支持多种高级功能,包括2D/3D目标检测与分割、多种SLAM方案(RGB、视觉惯性、激光等)、车辆导航与避障等 [29] - 深度相机驱动可单独启动,发布RGB图像数据、摄像头内参及深度图像数据 [43] - 支持手柄手动遥控模式,可通过配置文件修改最大线速度和角速度 [44][46] 应用场景展示 - 产品在室内、室外、地库等多种场景下进行了功能测试,包括感知、定位、融合、导航规划等 [6] - 具体测试场景涵盖户外公园行驶、点云3D目标检测、室内外2D/3D激光建图、上下坡及夜间行驶等 [8][10][12][14][16][18][20]
地平线ResAD:残差学习让自动驾驶决策更接近人类逻辑
自动驾驶之心· 2025-11-08 00:04
文章核心观点 - 地平线、华科和武大团队提出的ResAD框架通过归一化残差轨迹建模方法,解决了端到端自动驾驶中直接预测整条轨迹导致的因果混淆和规划困境两大核心问题 [2] - ResAD框架的核心思想是不直接预测整条轨迹,而是先给出一个基于物理的惯性参考线,然后让模型只学习一个调整量(残差),将学习目标从“轨迹是什么”转变为“为什么要调整方向” [2] - 该方法在NAVSIM v1和v2基准测试中均实现了最先进的性能,PDMS达到88.6,EPDMS达到85.5,展现出优秀的可行性与系统可靠性 [38][39] 技术方法创新 - **轨迹残差建模**:模型不直接从零开始预测整个未来轨迹,而是学习预测对一个简单的、基于物理的基线(惯性参考轨迹)的必要修正,量化人类驾驶员为导航环境所施加的精确修正 [17][18][19] - **逐点残差归一化**:对残差轨迹进行基于分量的标准最小-最大缩放,解决轨迹预测中坐标在时间维度上的尺度差异问题,确保优化过程不被远场误差所主导 [20][22][23] - **惯性参考扰动**:通过将随机扰动引入初始速度,生成包含略微变化的惯性参考簇,自然地产生一组多样化且与上下文相关的路径,实现多模态规划 [24][25][26] 性能表现 - 在NAVSIM v1基准测试中,ResAD的PDMS为88.6,其中NC为98.0,DAC为97.3,EP为82.5,在安全性和路线完成效率方面表现优异 [38] - 在更具挑战性的NAVSIM v2基准上,ResAD的EPDMS为85.5,比DiffusionDrive高出1.0,EP得分为88.2(对比87.5),DAC得分为97.2(对比95.9) [39] - 实车测试视频显示,在近20分钟视频中,系统在施工路段借道绕行等复杂情形下均能稳定通过,并能对动态障碍物做出智能响应 [6] 与现有方法对比 - 与传统端到端方法相比,ResAD避免了因果混淆问题(如前车刹车灯亮就刹车但不理解路口变红灯)和规划困境(过度关注不确定的远期预测) [5] - 与依赖静态预定义轨迹词库的多模态规划方法(如DiffusionDrive)不同,ResAD通过扰动惯性参考直接从高斯噪声中去噪,产生更优的、与上下文相关的多模态轨迹 [10][41] - 消融研究表明,轨迹残差建模将DAC指标从94.3提高到96.6,EP从77.8提高到80.3;结合PRNorm和惯性参考扰动后,PDMS分数从87.2提高到88.6 [43]
刚做了一份VLA学习路线图,面向初学者......
自动驾驶之心· 2025-11-08 00:04
自动驾驶VLA行业趋势 - 自动驾驶VLA是端到端技术之后学术界和工业界聚焦的核心方向,提供了类人思考能力并通过思维链形式展现车辆决策过程,旨在实现更可靠安全的自动驾驶能力 [1] - 传统BEV感知、车道线、Occupancy等方向已相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的主流方案 [4] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA技术分类 - 自动驾驶VLA目前可分为三个子领域:模块化VLA、一体化VLA和推理增强VLA [1] - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息 [17] - 一体化VLA实现感知→控制的端到端映射,通过单次前向传播直接将传感器输入映射为控制动作,消除模块间耦合延迟 [17] - 推理增强VLA将VLM/LLM置于控制中心,新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释 [18] 自动驾驶VLA核心技术栈 - 核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等 [7] - 涉及最前沿算法包括CoT、MoE、RAG、强化学习等 [7] - 视觉感知涉及BEV感知/动静态检测/OCC及轨迹预测 [18] - 语言模型涉及序列建模/Transformer及vision-language模态对齐算法 [18] - 动作模块包括判别式解码器和生成式解码器如何输出action [18] 行业代表性算法与模型 - 模块化&一体化VLA领域重点讲解华科和小米最新提出的ReCogDrive,其包含预训练、模仿学习训练和强化学习训练三个阶段 [17] - 推理增强VLA领域重点讲解华科&小米ICCV2025中稿的ORION、慕尼黑工大的OpenDriveVLA、上海交通大学的DriveMoE、博世和清华AIR的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等算法 [18][19][24] - 其他重要算法包括阿里&西交的FutureSightDrive、UCLA的AutoVLA、中科院和华为诺亚的Drive-R1等 [24] 行业实践与部署 - 以Qwen 2.5VL-72为例,讲解如何使用transformers或ms-swift本地部署大模型 [15] - 第五章配套实战选取清华AIR和博世提出的Impromptu VLA,基于开源Qwen2.5 VL进行数据集制作、训练和推理 [20] - 课程大作业要求基于ms-swift框架,自定义数据集和加载模型,开启训练任务并进行微调 [21]
李飞飞团队25年研究大盘点:从视觉理解到具身智能的全景图谱
自动驾驶之心· 2025-11-07 08:05
以下文章来源于深蓝AI ,作者深蓝学院 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 作者 | 深蓝学院 来源 | 深蓝AI 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 导读 斯坦福大学 HAI 研究院(Stanford Institute for Human-Centered AI, HAI)由李飞飞教授领衔,是全球人工智能基础研究与社会治理的重要引领力量。 李飞飞现任斯坦福大学首位红杉讲席教授,美国国家工程院、国家医学院及艺术与科学院三院院士,长期专注于计算机视觉、机器学习、认知神经科学 与环境智能系统等方向。她创建的 ImageNet 数据集及相关研究奠定了深度学习在视觉理解领域的核心基础,并推动了"数据驱动 + 认知启发"的研究范式 在全球范围的普及。 在研究思路上,李飞飞团队始终强调"从算法到系统"的全链路创新,致力于通过多模态融合、可解释学习与跨域感知,实现面向真实世界的智能体建模。近年 来,团队的工作从视觉表征学习延伸至多模态生成、具身 ...
理想ICCV'25分享了世界模型:从数据闭环到训练闭环
自动驾驶之心· 2025-11-07 08:05
公司智能驾驶技术发展路线 - 公司智能驾驶发展经历了从规则时代的轻图和无图方案 到基于人工智能的端到端+视觉语言模型快慢双系统和视觉语言自动驾驶方案 导航模块在四个方案中均为重点 [6] - 公司端到端量产版本的MPI已达到220+ 相比2024年7月底的版本提升了约19倍 [13] 数据闭环流程与规模 - 完整的数据闭环流程包括:影子模式验证、数据触发回传至云端、数据挖掘、有效样本自动标注、生成训练集训练模型、模型下发验证性能 [9] - 数据回传过程可在一分钟内完成 [10] - 公司已积累15亿公里的驾驶数据 通过200多个触发器生产时长15至45秒的片段数据 [11] 自动驾驶下半场:从数据闭环到训练闭环 - 行业观点认为自动驾驶进入下半场 核心玩法从数据闭环转向训练闭环 [18][21] - L4级训练循环的核心技术栈为视觉语言自动驾驶+强化学习+世界模型 轨迹由视觉语言自动驾驶的扩散模型和基于世界模型的强化学习共同优化 强化学习包括RLHF、RLVR和RLAIF [23] - 训练闭环关键技术栈包括区域级别仿真、合成数据和强化学习 [24] 训练闭环关键技术细节 - 仿真依赖场景重建技术 包括视觉/激光雷达重建、区域重建、多趟重建、场景编辑和风格迁移 [26] - 合成数据依赖多模态生成技术 包括视频/点云生成和神经渲染 [26] - 强化学习依赖智能体、3D资产以及评测与奖励模型 [26] - 可交互的智能体是训练闭环的关键挑战 [40] - 系统能力是世界模型增强引擎的关键 包括仿真环境、3D资产构建多样化场景、交互式行为建模、奖励模型反馈泛化能力及GPU工程加速推理 [41] 公司在重建与生成领域的进展 - 公司在重建领域已有两篇顶会论文成果 [28] - 公司技术方案从重建发展到生成 其中Feedforward 3DGS方案无需点云初始化 可直接由视觉输入得到结果 [29] - 公司在联合重建与生成领域有一篇顶会论文 [32] - 公司在生成领域有三篇顶会论文成果 [34] - 生成技术的应用包括场景编辑、场景迁移和场景生成 [36]
特斯拉的场景重建值得国内重视,前馈GS才是未来方向......
自动驾驶之心· 2025-11-07 08:05
特斯拉世界模型技术分析 - 特斯拉基于FeedForward Gaussian Splatting实现闭环仿真或世界模型 其算法输入包含视觉视频、导航地图、车辆运动学及音频 输出包含全景分割、3D OCC、3D Gaussian和语言等 这些内容共同推理出行动[2] - 采用FeedForward GS技术后 可直接从视觉输入建模出3D场景 优化时间从传统GS的30分钟大幅减少至220毫秒 且不再依赖点云初始化[4] - 与传统GS相比 特斯拉生成式GS在新视角下的重建效果显著提升 动态目标模糊和伪影问题得到极大优化 车身结构、地面及车辆的重建质量有明显改善[4] - 目前国内尚无公司能达到与特斯拉相媲美的效果 预计国内新势力厂商将对此技术方向加大重视 相关岗位需求可能增多[4][6] 3D Gaussian Splatting技术演进与行业应用 - 3DGS技术迭代迅速 已从静态重建3DGS发展到动态重建4DGS、表面重建2DGS 乃至目前的前馈式3DGS 该技术在学术界和工业界均受到高度重视[7] - 技术领域存在学习门槛 需同时掌握点云处理、深度学习理论、实时渲染及代码实战等多方面知识[7] 专业课程内容概述 - 课程第一章涵盖计算机图形学基础 包括三维空间的隐式与显式表达、渲染管线、光线追踪及辐射场渲染 并介绍3DGS常用开发工具如COLMAP和Gsplat 附带基于3D Real Car训练模型的小作业[11] - 第二章深入讲解3DGS原理算法及核心伪代码 涵盖动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法 实战部分采用英伟达开源3DGRUT框架[12] - 第三章聚焦自动驾驶仿真重建 重点解析浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作 实战使用DriveStudio框架[13] - 第四章探讨3DGS重要研究方向 包括COLMAP扩展、深度估计及Relighting 并分析其工业界应用与学术前景[14] - 第五章专述前馈3DGS 梳理其发展历程与算法原理 讲解AnySplat和WorldSplat等最新算法工作[15] - 课程采用离线视频教学 配合VIP群答疑及三次线上答疑 开课时间为12月1日 预计两个半月完成全部章节学习[18] 课程面向人群与要求 - 课程面向具备一定计算机图形学基础 了解视觉重建、NeRF、3DGS等技术 并拥有概率论、线性代数及Python、PyTorch语言基础的学员 推荐自备算力在4090及以上的GPU[20] - 学员通过学习可掌握3DGS完善的理论知识及相关技术栈 熟悉算法开发框架并训练开源模型 并能与学术界、工业界同行持续交流 对实习、校招和社招均有助益[20]
需要撕衣验证?全网都吵疯了!小鹏的人形机器人,是不是真人
自动驾驶之心· 2025-11-07 08:05
公司战略转型 - 小鹏汽车在AI Day 2025上正式宣布从造车公司转型为AI公司[10] - 公司基于自研的Xpeng VLA 2.0大模型衍生出一整套AI定义的应用[10] - 小鹏在机器人领域已深耕7年,从四足形态进化到完全类人阶段[11] 人形机器人IRON技术规格 - IRON身高约1.78米,体重70kg,比1X的NEO等机器人更高[12] - 双手拥有22个自由度,仅比人类少5个,能完成叠衣服、擦桌子等精细任务[14] - 全身共有65个自由度,具备类人脊柱运动能力,比NEO多出10个自由度[15] - 机器人采用全新的类人骨骼结构、仿生肌肉系统和全覆盖柔性皮肤,机械感大幅降低[11] - 头部采用3D曲面显示屏作为交互界面,实现更自然的人机交流[25] - 使用全固态电池,但未公布容量或续航数据[27] 人工智能与动力系统 - IRON的灵魂来自小鹏自研的AI大脑,由三颗图灵AI芯片驱动,总算力高达2,250 TOPS[24] - 系统整合了VLT+VLA+VLM三大认知模型,实现视觉感知、语言理解与动作决策的一体化[24] - 机器人背后有运动"小脑"支持,虽然官方未给出更多信息[17] 外观设计与定制化 - IRON外观可定制男性或女性特征,通过柔性3D网格结构与软质皮肤材料实现拟人身体曲线与触感[21] - 采用3D打印的蜂窝网格织物,既提供结构强度又具备柔韧性,触感温柔[22] 商业化计划与应用场景 - 官方计划2026年实现IRON量产,但只会在自有商业场景中使用,如展厅导览员、接待员或销售顾问[31] - 明年在全球小鹏展厅就能看到IRON作为门店员工上岗[33] - 公司将推出IRON SDK,开放开发接口,邀请第三方共创应用场景,首批合作方包括宝钢集团等大型企业[33] - 此前尝试让IRON上生产线拧螺丝,但发现效率低、维护贵、易损坏,暂时不适合规模化生产[31] 行业发展趋势 - 相比特斯拉、1X等公司喊出2026年量产口号,小鹏显得更为克制[31] - 人形机器人进入工厂预计需要3-5年,家庭普及约需5-10年[32]
阿里新研究:统一了VLA和世界模型
自动驾驶之心· 2025-11-06 16:43
WorldVLA模型框架概述 - 提出WorldVLA统一框架,融合视觉语言动作模型与世界模型,旨在让AI理解世界 [1] - 该框架由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出 [1] - 实验结果表明,WorldVLA表现显著优于独立的动作模型与世界模型,体现二者相互增强效应 [2] 技术架构与实现细节 - 基于Chameleon模型初始化,使用三套独立分词器对图像、文本和动作进行编码 [8] - 图像分词器采用VQ-GAN模型,压缩比为16,码本大小为8192 [8] - 对于256×256图像生成256个token,对于512×512图像生成1024个token [8] - 动作分词器将连续机器人动作每个维度离散化为256个区间,动作由7个token表示 [8] - 提出针对动作生成的替代注意力掩码,使自回归框架能并行生成多个动作 [11][12] 模型性能评估 - 在无预训练情况下,WorldVLA(256×256)平均成功率为79.1%,优于OpenVLA的76.5% [19][21] - WorldVLA(512×512)平均成功率提升至81.8%,显示模型性能与图像分辨率呈正相关 [21][22][23] - 引入世界模型后,动作模型平均成功率从62.8%提升至78.1% [25][26] - 在视频生成质量上,WorldVLA在50帧序列的FVD指标为674.1,优于纯世界模型的718.6 [32] 技术优势与应用前景 - 世界模型通过预测未来图像学习环境物理规律,提升动作生成准确性 [5][25] - 动作模型基于图像观测生成后续动作,反向促进世界模型视觉生成能力 [5][17] - 框架结合VLA抽象思考与世界模型物理感知,被视为通往具身智能的路径 [36][37]
智驾将往何处去?第一次自动驾驶圆桌纪实
自动驾驶之心· 2025-11-06 08:04
智驾技术发展回顾 - 行业早期普遍采用深度学习驱动、caffe、ROS、Faster RCNN等技术,所有公司均大举投资并扩张团队,宣称五年内实现自动驾驶,行业朝气蓬勃 [4] - 技术演进经历了从特斯拉HydraNet、BEV、端到端到VLA的各个阶段,其中机器人学建模坐标系的变化和数据驱动的变化带来了巨大变革 [5] - 商业化路径从早期聚焦RoboTaxi转向L2量产,L2技术也经历了模块化、端到端等阶段,目前L4已在无人驾驶小车领域落地,RoboTaxi热潮再起 [5][6] 行业经验与关键成功因素 - 智驾行业经历了三次主要阵痛:放弃robotaxi、保证L2安全以及将系统转化为量产交付 [7] - 公司成功的关键在于人工智能能力、一号位的战略与执行力,以及能否覆盖从数据采集到系统集成的长交付链条,执行力差异导致结果显著不同 [7] - 行业竞争已从“有长板就能活”转变为“没有短板才能活”,公司需在技术基建、适配能力、人才密度、战略规划与工程实践协同上均无短板,成为六边形战士 [7] - 智驾作为复杂系统,其安全性、合规标准及对管理层和组织架构的高要求构成了重要门槛 [7] VLA与世界模型的技术路径 - VLA架构旨在解决快慢系统难以训练的问题,具体实施方案多样,包括渐进式耦合方案、混合架构方案以及激进端到端方案,目前尚无定论 [8] - VLA路线侧重于解决语义理解与交互问题,通过语言模态实现环境认知升级;世界模型路线则旨在突破数据局限性,通过生成式建模拓展系统认知边界,两者高度互补 [10] - VLA具备良好的人机交互能力,但其工程化需平衡创新性、算力、安全性,并面临渐进式与颠覆式创新的战略选择 [10] - 对于投资决策,技术细节并非唯一评估标准,技术能力与市场能力的匹配度以及新技术带来的资源消耗是否值得更为关键 [10] 行业未来展望与机遇 - 智驾行业积累的系统理解能力、AI研发能力以及对学术素养和工程落地能力的要求,可无缝对接到具身智能领域 [11] - 产业层面,城市NOA等功能尚不完善,融合VLA与世界模型等学术成果落地存在大量机会,行业远未成熟,发展空间广阔 [11] - 在学术界技术路线趋同的背景下,研究者更应将根本性革命作为目标,而非对现有方法小修小补,系统性技术跃迁将带来重大成果 [11] - AI coding工具不会削弱从业者核心竞争力,反而能使其更聚焦于算法等核心问题 [11]
小鹏刚刚发布了VLA 2.0,但去掉了语言转译......
自动驾驶之心· 2025-11-06 08:04
小鹏VLA技术进展 - 小鹏发布VLA 2.0,采用两套方案并行研发:传统V→L→A路径和新型V/L→A路径,后者与特斯拉ICCV分享的技术思路类似,语言输入与视觉输入并行而非作为中间件[2][3][6] - V/L→A方案去除了语言转译环节,但仍以视觉为核心,是世界首个量产物理世界大模型,最高有效算力达2250 TOPS[6] - 技术框架参考开源算法如ORION,可同步输出感知结果、自车轨迹及思维链,世界模型参与未来场景预测[5] - 公司计划入局Robotaxi领域,配置四颗图灵AI芯片,算力提升至3000 TOPS[8] 自动驾驶技术趋势与行业动态 - 行业正加速解析特斯拉公开的新技术信息,VLA与V/LA被视为L3技术突破的关键路径,世界模型与VLA的路线竞争尚未定论[10] - 业内技术思路趋同,重点在于工程优化效果,例如ORION框架通过潜在标记与世界仿真器交互实现强化学习[5] 自动驾驶社区资源与生态 - 自动驾驶之心知识星球社区规模超4000人,覆盖近40项技术方向,包括VLA、BEV感知、世界模型等,目标两年内扩至近万人[14][20][31] - 社区整合超60个数据集、40个开源项目及仿真平台,提供技术路线图、求职内推与行业大佬直播,如小米汽车云端大模型算法工程师岗位内推[17][23][26][31] - 学习资源涵盖全栈课程、7大福利视频教程及超100场专业直播,内容涉及端到端自动驾驶、3DGS闭环仿真等热门领域[23][31][95][98]