自动驾驶之心

搜索文档
为什么 VLA 能叠毛巾,却测不准物体位姿?
自动驾驶之心· 2025-09-25 07:33
以下文章来源于具身智能之心 ,作者Zheng Geng等 玩过机器人操作的朋友都知道,"抓零件""放调料瓶" 这类需要精准交互的任务,核心是 "靠空间感知说话"——得知道物体的 3D 位置(平移)和朝向(旋转), 还要确保测算的尺度与真实世界一致。可现有方法总在 "妥协":要么依赖预先扫描的 CAD 模型(现实中根本找不到那么多),要么需要多视角图像(实时场景 中哪来得及拍),就算是单视图重建,也会陷入 "不知道物体真实大小" 的尺度模糊困境。 这就导致了鲜明的能力断层:VLA 能靠视觉规划完成 "叠毛巾" 这类不依赖精准空间定位的任务,却在 "抓陌生物体" 这类需要 6D 位姿支撑的操作上寸步难行。 根本原因在于, 仅凭 RGB 视觉和语言指令,无法构建 "生成模型-真实物体-空间姿态" 的闭环关联 ——而机器人与物理世界的交互,恰恰依赖这种精准的空间 感知。 基于此背景,由北京智源研究院、清华大学、南洋理工大学等机构联合提出的 OnePoseViaGen,给出了一套颠覆性解决方案:它不需要预设 3D 模型,仅凭一张 参考图,就能通过 "单视图 3D 生成 + 粗精对齐 + 文本引导域随机化" 的组合拳,完 ...
华为坚定要走的世界模型路线,到底是什么?
自动驾驶之心· 2025-09-25 07:33
一、引言 世界建模已成为人工智能(AI)与机器人领域的一项基础性任务,其核心目标是使智能体具备理解、表示并预测其所处动态环境的能力。近年来,生成 式建模技术(包括变分自编码器(VAEs)、生成对抗网络(GANs)、扩散模型(diffusion models)和自回归模型(autoregressive models))取得了显 著进展,通过实现复杂的生成与预测能力,极大地丰富了该领域的研究内容。 然而,这些进展在很大程度上集中于2D数据,主要是图像或视频。与之形成对比的是,现实世界场景本质上处于3D空间中且具有动态特性,通常需要 利用原生3D与4D表示的模型。这类表示包括RGB-D图像、占用网格、激光雷达点云,以及能够捕捉时间动态的时序形式。这些模态可提供明确的几何 信息和物理基础,对于自主驾驶、机器人等嵌入式系统(embodied systems)和安全关键系统(safety-critical systems)而言至关重要。 除上述原生格式外,世界建模的研究也已拓展至相邻领域。部分研究关注视频、全景或基于网格(mesh)的数据,此类系统具备大规模、通用的视频- 网格生成能力;与此同时,另一类研究聚焦于3D物体 ...
基于模仿学习的端到端决定了它的上限不可能超越人类
自动驾驶之心· 2025-09-24 14:35
基于模仿学习的端到端本质只是在模仿人类,对物理世界的理解并不透彻。 因此VLA提供了这样一种可能,从模仿人类到成为人类。 业内这两年追捧的端到端,标志着智能驾驶从规则驱动向数据驱动的根本转变。但在实际量产中,端到端虽然提供了一个打通上下游视角的能力,但面对复杂的困难场景 仍然受限。如果在自动驾驶公司工作过,就知道量产模型的迭代仍然被限制在无限corner case的循环中。这里也借用李想AI Talk的一段话: " 端到端比较像什么呢?端到端比较像哺动物的智能,比如像马戏团里的一些动物,向人类学习怎么骑自行车。它学了人类的这些行为,人类怎么去做出各种的行为的开 车。但是它对物理世界并不理解,它只是看到了一个什么样的三维的图像,知道自身的速度,并给出了一个什么样的轨迹,所以它应付大部分的泛化是没有问题的,去面 对它从来没有学到的、特别复杂的,其实就会遇到问题。所以这时候我们也会配合,视觉语言模型 VLM,然后放进来。但是我们能够用到的视觉语言模型这些开源的, 用在交通上的能力都非常的有限,所以只能起到一些非常有限的辅助的一个作用。我觉得第二个阶段就是哺乳动物智能运作的一个方式。 " VLA本质上也可以算作是一种 ...
等了大半年的Qwen3-VL终于也开源了!
自动驾驶之心· 2025-09-24 14:35
以下文章来源于刘聪NLP ,作者刘聪NLP 刘聪NLP . 不会rap的刘聪,在这里分享着AI的flow。 作者 | 刘聪NLP 来源 | 刘聪NLP 抓着云栖大会,猛开源是吧,两天时间,开源了Qwen3-Omni系列模型、Qwen-Image-Edit-2509模型、 Qwen3-VL模型、Qwen3Guard-Gen系列模型,共计12个。 还有一些没开源的API,比如Qwen-TTS、Qwen3-Coder-Plus、Qwen3-Max、Qwen3-LiveTranslate等等等 PS: 我恨俊旸呀!天天凌晨开源~ 说实话,根本测不完,都知道我一直在等Qwen3的VL模型,其他模型先放一放,今天先来测试一波VL模 型。 先来看看模型相关内容,Qwen3-VL相较于Qwen2.5-VL有以下方面改进, vision encoder部分 ,Qwen3-VL沿用之前的VisionPatchEmbed,使用Conv3d,不过patch_size从14扩到了 16,激活函数从silu变成gelu_pytorch_tanh projector部分 ,从之前的MLP-based Projector,额外增加DeepS ...
自动驾驶之心国庆&中秋节活动开始了(课程八折/星球七折/辅导/硬件优惠)
自动驾驶之心· 2025-09-24 12:00
驾 + 具 身 所有课程 频售课程除夕 ▲星球福利 / xING QIU FU LI 7折优惠,立减80 7折优惠, 立减99 节后将再次涨价 赠送7门精品课程 具身智能之心 自动驾驶之心 ▲ 福利专区 /FU LI ZHUAN QU O 1.大模型星球 99元一年,(技术 + 行 业 + 求职) 2. 1v1辅导辅导最高1000抵扣 5000 3.1v6论文辅导立减*1000 4. 超级折扣卡:*299元 自驾课程七折 优惠 (一年期) ▲ 伊件福利 /YIN JIAN FU LI 星球核心内容一览! 欢迎添加小助理咨询活动详情! 自动驾驶之心 知识星球 技 最前沿的 自驾技术社区 术 f 7 P 7 5 r 6 自动驾驶VLA 世界模型 闭环仿真 扩散模型 BEV感知 --- 近40+学习路线 保持活力,持续学习 交 学术界&工业界 大佬面对面交流 4 r r VLA和WA的路线之争 未来自驾的发展方向 世界模型到底model了个館? 关于端到端的讨论 星友面对面 直击行业第一线 直 → 顶会作者亲临 播 6 f t r r Impromptu VLA NavigScene LangCoop DriveB ...
打算招聘几位大佬共创平台(4D标注/世界模型/VLA等方向)
自动驾驶之心· 2025-09-24 07:32
QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
什么样的技术才能成就一家顶流自动驾驶公司?
自动驾驶之心· 2025-09-24 07:32
文章核心观点 - 自动驾驶技术自1989年实验室探索起步 历经36年发展 已从基于规则的模块化设计演进至端到端大模型驱动 逐步走向大众市场[2] - 行业技术路线呈现共性趋势:从依赖高精地图和多传感器融合 转向无图化纯视觉方案 最终迈向端到端架构和世界模型 核心突破体现在BEV鸟瞰视角感知 占用网络障碍物识别和大模型决策规划[6][17][23] - 主流厂商通过数据驱动飞轮循环 实现算法迭代和场景泛化 特斯拉纯视觉方案构建数据壁垒 华为ADS版本迭代提升感知距离35% 时延降低65% Momenta依托10亿公里训练数据推进L3落地[6][28][31][33] - 硬件成本持续下探 卓驭科技纯视觉方案硬件成本降至5000-7000元人民币 地平线征程6系列芯片算力达560TOPS 支持10-20万元主流市场[54][56][50] - 2025年成为技术分水岭 理想VLA司机大模型具备因果推理 蔚来世界模型NWM支持0.1秒216种轨迹推演 行业从L2普及(渗透率65%-70%)迈向L3落地前夜[61][110][112] 特斯拉技术发展 - 采用纯视觉感知方案 摒弃激光雷达和高精地图 通过庞大车队构建数据壁垒[6] - 2021年AI Day推出BEV技术:通过Transformer将2D图像转换到3D鸟瞰图空间 实现多摄像头感知融合[8][9] - 2022年AI Day推出占用网络:将空间划分为体素 预测占用状态而非物体类别 可识别异形障碍物但计算量巨大[12][16] - 2024年3月FSD V12实现端到端模型:统一深度学习模型直接输出控制指令 驾驶行为更拟人化但可解释性差[17][18][19] 华为ADS技术演进 - ADS 1.0(2021年4月):依赖3颗激光雷达和13个摄像头 结合高精地图实现高速NCA和自动泊车 硬件成本高[25] - ADS 2.0(2023年4月):实现无图智驾 激光雷达减至1颗 平均人工接管里程从100公里提升至200公里 GOD网络识别异形障碍物[27] - ADS 3.0(2024年4月):端到端大模型融合感知与规划 探测距离提升35% 时延降低65% 搭载192线激光雷达和4D毫米波雷达[28][29] - ADS 4.0(2025年4月):支持高速L3级自动驾驶 依托45EFLOPS云端算力和10亿公里训练数据迭代算法[30][31] Momenta技术路径 - 采用"一个飞轮两条腿"战略:数据驱动算法形成闭环 左腿量产自动驾驶(Mpilot)提供数据流 右腿完全无人驾驶(MSD)反馈技术流[33] - 2019年AD 1.0:视觉建图精度10cm 支持众包更新但功能限于泊车场景[35] - 2022年AD 2.0:规则驱动规划 依赖高精地图 拓展性差[36][37] - 2023年AD 3.0-4.0:向数据驱动转型 感知任务整合至单一模型 但保留感知规划分离pipeline[38][41][42] - 2024年AD 5.0:端到端大模型整合感知与规划 模仿人类长期记忆 延迟降低但系统复杂[43] - 2025年R6飞轮大模型:基于强化学习和7000万黄金数据自我进化 驾驶能力超人类但可靠性待验证[44] 地平线技术路线 - 软硬协同渐进路线:从车规芯片切入 通过征程系列芯片迭代支撑功能升级[47][49] - 征程2/3芯片(2021年):支持L2辅助驾驶 800万像素前视摄像头[49] - 征程5芯片(2022-2023年):支持L2+高速NOA和城区领航辅助 应对交通信号灯识别[50] - 征程6系列芯片(2025年):算力达560TOPS 支持10-20万元市场规模化落地 并拓展至机器人领域[50] 卓驭科技低成本方案 - 成行平台基础版(2023年):7摄像头+32TOPS算力 硬件成本5000元人民币 实现高速NOA和记忆泊车[54] - 成行平台升级版:纯视觉无图城区智驾 硬件成本7000元人民币 支持15万元级别车型[56] - 成行平台高配版(2024年):10摄像头+100TOPS算力 增800万像素长焦单目 提升侧向感知[57] - 舱驾融合传感器(2025年):惯导三目集成激光雷达 成本降30%-40% 下放至30万元内车型[59] 理想汽车三段演进 - 规则驱动(2021年前):if-else规则分解驾驶任务 可解释性强但泛化能力差[63][64][66] - 端到端模型(2023年):模仿学习直接输出控制指令 行为拟人但缺乏因果推理[65][67][71] - VLA司机大模型(2025年):统一建模视觉-语言-行动 具备逻辑推理能力 训练成本极高[61][73][74][75] 小鹏全场景进化 - XPILOT 2.0/2.5(2018-2019年):20传感器实现自动泊车和遥控泊车 解决特定场景需求[81][82][83] - XPILOT 3.0(2020年):P7搭载高速NGP 实现全自研360度感知[84][85] - XPILOT 3.5(2021年):P5首搭激光雷达 城市NGP限5城开放[87][88][89] - XNGP(2022年):AI大模型驱动 算力508TOPS 降低高精地图依赖[90][91][92] - 2024年无图方案覆盖243城 端到端大模型上车 2025年推进全球XNGP研发[93][94] 蔚来稳健推进 - 早期合作Mobileye(2016年):利用成熟方案但迭代受限[101][102][103] - NOP+高速领航(2020-2024年):全栈自研后安全性达人驾6.26倍 但城区功能推送较晚[104][105] - 2024年4月全域NOP+订阅制推送:无图技术覆盖726城 群体智能架构优化系统[107][108][109] - 世界模型NWM(2025年5月):支持0.1秒216种轨迹推演 认知能力增强但长期稳定性待观察[110][111][112]
3DGS重建!gsplat 库源码解析
自动驾驶之心· 2025-09-24 07:32
作者 | 微卷的大白 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1952449084788029155 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 前两天看到李飞飞 Worldlabs 新工作Mrable的时候,提到后面想多看一看 3DGS / 重建相关的工作。 不过如果真的有小白要踩坑 ,gsplat 的文档和维护其实比gaussian-splatting 要稍微好一些,个人更推荐这个库。 相比3DGS 论文对应的 gaussian-splatting 库,nerfstudio-projectgsplat 是对官方库做了一些优化,可参考https://docs.gsplat.studio/main/migration/migration_inria.html 的 说明。 但是知乎搜了一下发现,讲 3DGS 论文原理、改进的不少,我自己上半年也回顾过cuda kernel 源码:重温经典之 3DGS CUDA 源码解析 ,但是另一个常用的gsplat ...
专攻长尾场景!同济CoReVLA:双阶段端到端新框架
自动驾驶之心· 2025-09-24 07:32
自动驾驶技术在 长尾场景(低频率、高风险的安全关键场景) 中表现仍存在显著短板——这类场景虽不常见,却占自动驾驶事故的很大比例,且会导致驾驶员 接管率急剧上升。 传统模块化自动驾驶系统(感知-预测-规划分阶段)存在"误差累积"问题:各阶段的微小误差会逐步放大,导致整体性能难以提升;而端到端方法直接将传感器 输入映射为控制动作或者自车的轨迹,具备更强的适应性和统一优化能力,被认为是解决长尾场景问题的潜在方向。 而当前端到端方法主要分为两类,但均无法很好应对长尾场景: CoReVLA 核心设计:"Collect-and-Refine"双阶段框架 为解决上述问题,CoReVLA提出 持续学习的双阶段框架 ,通过"数据收集(Collect)"与"行为优化(Refine)"循环,提升长尾场景下的决策能力。整体流程如 figure 1所示,分为预阶段(SFT)、第一阶段(接管数据收集)、第二阶段(DPO优化)三部分。 预阶段:基于QA数据的监督微调(SFT) 此阶段的目标是让VLA模型建立自动驾驶领域的基础认知,为后续长尾场景学习铺垫。 $${\mathcal{L}}_{S F T}=-\sum_{i=1}^{N}\su ...
世界模型能够从根本上解决VLA系统对数据的依赖,是伪命题...
自动驾驶之心· 2025-09-23 19:37
"世界模型能够从根本上解决VLA系统对数据的依赖,是伪命题。" 柱哥这两天和星球大佬讨论VLA和WA的路线之争,分享给大家。 2025年的自动驾驶赛道正分裂为两大阵营:小鹏、理想、元戎启行押注 VLA路线,华为、蔚来则力 推世界行为模型(WA)。后者认为WA才是能真正实现自动驾驶的终极方案。然而血淋淋的现实 是:这不过是个套壳的数据依赖论。 VLA依赖海量数据训练得到的VLM进一步扩展Action的能力,但工业界最得天独厚的优势就是有海 量的数据,这给模型研发提供了无限可能。在普通场景大家都已经做到99.9%的能力下,长尾场景才 是既分高下也决生死的所在。 世界模型为什么会被吹捧,生成式的方法理论上可以无限扩展corner case,但生成的前提是用海量真 实数据训练物理规则认知框架。 你去生成一个卡车在马路上打篮球的场景,理论上虽然可以,但实际上VLA也好,WA也好,都未必 能真正理解。 『自动驾驶之心知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类 的自驾社区,已经超过4000人了。 我们期望未来2年内做到近万人的规模。给大家打造一个交流+技 术分享的聚集地,是许多 ...