Workflow
自动驾驶之心
icon
搜索文档
一场关于自动驾驶VLA和世界模型的深度讨论!下周一不见不散~
自动驾驶之心· 2025-11-11 08:00
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>直播和内容获取转到 → 自动驾驶之心知识星球 点击按钮预约直播 分享介绍 主讲嘉宾 詹锟 :理想汽车视觉-语言-动作(VLA)团队高级总监。硕士毕业于北京航空航天大学自动化专业,2017 年加入百度 Apollo,负责行为预测 方面的工作。2021 年加入理想汽车,从零开始搭建自动驾驶技术栈。自那时起,我们的团队取得了一系列里程碑——高速 NoA(2022 年)、 城市 NoA(2023 年)、端到端+VLM 双系统架构(2024 年)以及 VLA 框架(2025 年)。多年来,领导着自动驾驶全流程的开发工作——从 行为预测、静态/动态感知,到世界模型、VLM 和强化学习领域的大规模基础模型研究。 许凌云 :中国科学院博士,卡内基梅隆机器人研究所博士后。共发表12篇机器人领域顶级期刊或会议文章,获取过DARPA SUBT无人车挑战 赛2019年世界冠军。研究成果主要集中在目标检测、跟踪,从2019年到2024年专注于智能驾驶算法的开发,主导过多个行车和泊车量产项目 的落地。担任TIE、TITS、TRO、I ...
在地平线搞自动驾驶的这三年
自动驾驶之心· 2025-11-11 08:00
作者 | candywisdom 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1970953355355469364 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 从自动驾驶转到具身智能已经有一年的时间了,之前在自动驾驶上一系列工作和一些个人思考还一直没有好好的做个总结。(Ps: 虽然广义来说,自动驾驶属于具身智 能的子领域,但是现阶段二者所面临的问题和解决问题的具体方式还是存在较大差异,所以还是算是进入了一个转向了一个新的方向。) 可预期的短时间内,主要精力投入应该不会放在自动驾驶上了,但总觉得该给自动驾驶的这段经历留个记录。倒不是说这些工作多"惊天动地",反而有些是"关注度不 高但挺实在"的探索,它们可能没上过热搜,但个人认为其确确实实解决过实际问题,希望可以给做相关方向的朋友提供点参考。 在做自动驾驶期间,我主导过研究方向主要包括3D融合感知(Sparse4D系列)、轨迹预测(EDA)、端到端运动规划(Spar ...
一汽或成零跑汽车最大股东,分步收购方案已获批!
自动驾驶之心· 2025-11-10 16:12
来源 | 一汽收购零跑!板上钉钉了? 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 中国经济网从可靠消息处获悉,通过定向增发方式,一汽集团将陆续收购零跑股权,并最终成为其第一大股东。该方案已经获得有关部门批准,并计划于11月17 日对外官宣。对此,零跑汽车官方明确表示,上述消息不实。 此前市场就曾传出零跑汽车将被一汽集团收购,当时也被官方否认。8月20日多家媒体报道称,中国一汽正在筹划入股零跑汽车,成为后者的战略股东。彼时报道 称,知情人士透露,一汽计划初步要约收购10%左右零跑股份,目前该方案已经在一汽内部相关部门流转推进。对此,零跑汽车表示:"不予置评";中国一汽表 示:"这是不实信息。" 更早之前,中国一汽和零跑汽车双方已有所交集。今年3月3日,为加强技术融合、聚集优势资源、共同提升产品竞争力。中国一汽与零跑汽车在长春举行《战略 合作谅解备忘录》签署仪式。彼时,中国一汽董事长、党委书记邱现东,零跑汽车创始人、董事长兼CEO朱江明均出席签署仪式。根据签约内容,双 ...
关于理想VLA未来发展的一些信息
自动驾驶之心· 2025-11-10 11:36
理想VLA技术发展路线 - 短期目标:致力于打造训练的强化闭环,预计2025年底完成搭建,2026年初将展现出良好表现,使车辆具备持续成长的能力[2] - 中期目标:强化闭环完善后,可能在中国市场超越特斯拉,主要优势在于拥有比特斯拉更便利的闭环迭代环境[3] - 长期规划:VLA技术有望实现L4级别自动驾驶,但未来仍需新技术支持[4] - 业务流程变革:VLA结合强化学习不仅是技术变革,更是业务大变革,预计需要1-2年迭代周期,2027年行业将发生重大变化[3] 理想VLA技术实现路径 - 当前限制:由于安全考虑和潜在舆情风险,系统设置了较多安全限制,尚未实现训练的强化闭环[4] - 未来机制:强化闭环系统可自动识别问题(如用户接管、驾驶顿挫、急刹车),自动收集数据并回传进行强化训练,完成迭代后上线[4] - 技术倾向:认为驾驶所需智能程度相对较低[5];业务流程改革完成后,车端算力与模型参数需求不会要求过大[5] - 具体锚点:车端算力1000或2000TOPS,云端模型32B参数,认为将320B模型蒸馏成4B很不合适[6] 理想自动驾驶组织架构调整 - 组织变革:智驾部门调整为11个二级部门,负责人均具备业务背景而非纯管理出身[12] - 部门拆分:原模型算法团队拆分为基础模型部、VLA模型部和模型工程部;原量产研发团队拆分为量产交付部、软件研发部和主动安全部;原数据闭环团队拆分为数据平台部和数据标注部[12] - 管理理念:智驾核心管理者从内部培养,Research/算法研究可从外部引进[12] - 取消封闭开发:因不再是追赶者且收益降低,同时体现员工关怀[12] 理想领导层与团队建设 - 李想参与:2025年2月底提出加快交付VLA,认为模仿学习本质不具备人类智能[11];每月与校招生沟通一次[11] - 团队传承:第一代骨干完成0到1突破后部分离职,目前第三代以詹锟、湛逸飞为主,加上9个二级部门负责人[13] - 领导作用:在资源投入、持续保障以及对AI技术路线的关键判断方面发挥核心作用[13] - 精力分配:50%精力用于日常管理,30%用于中长期战略规划,20%关注技术和业务进展[18] 行业竞争与技术观点 - 对VLA态度:认为友商反对VLA恰恰证明该技术方向的正确性[14] - 技术对标:非常关注FSD V14进展,团队将在美国进行实车体验;认为与Ashok在ICCV 2025演讲理念高度一致[18] - 模型对比:任少卿提到的世界模型与理想VLA模型属同一层级,华为的W Engine类似理想所说的世界模型[18] - 数据挑战:即使有大量数据也无法穷尽所有场景,需要系统具备人类思维推理能力而非简单泛化[18] 资源配置与发展规划 - 算力规划:推理算力与训练算力各占一半较为合理;2024年云端算力达8 EFLOPS,价值约10亿人民币[18] - 模型开发:正在研发42B云端模型,希望参数量不要过大[18] - 芯片策略:自研芯片若单颗效果不佳将采用两颗方案[18] - 团队规模:2023年公司主基调为扩招,但认为团队规模只需比特斯拉稍多即可[18] - 指标预期:2027年可能不再使用MPI指标,因接管率将普遍较低[18]
合作了一款高性价比3D扫描仪!
自动驾驶之心· 2025-11-10 11:36
以下文章来源于3D视觉之心 ,作者3D视觉之心 3D视觉之心 . 3D视觉与SLAM、点云相关内容分享 GeoScan S1设备自带手持Ubuntu系统和多种传感器设备,手柄集成了电源,可通过D-TAP转XT30母头输出至 GeoScan S1设备本体,给雷达、摄像头以及主控板提供电源。 最强性价比3D激光扫描仪 面向工业场景和教研场景的 超高性价比3D扫描仪来了!GeoScan S1是国内目前最强性价比实景三维激光扫描 仪,轻量化设计,一键启动,便可拥有高效实用的三维解决方案。以多模态传感器融合算法为核心,实现厘米级 精度的三维场景实时重构。可广泛用于多种作业领域。 每秒20万级点云成图,70米测量距离,360°全域覆盖,支持20万平米以上的大场景,扫描可选配3D高斯数据采 集模块,实现高保真实景还原。支持跨平台集成,配备高带宽网口及双USB 3.0接口,为科研实验提供灵活扩展 空间。降低开发门槛,助力开发者快速掌握研发能力,开启更多可能。 基础版重建效果一览! 使用门槛低 :操作简单直观,一键启动即可 执行扫描作业 扫描结果导出即用 :无需复杂部署和繁琐处理,扫 描结果导出即用 高效率高精度建图 :模型精 ...
模仿学习之外,端到端轨迹如何优化?轻舟一篇刷榜的工作......
自动驾驶之心· 2025-11-10 11:36
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Lin Liu等 编辑 | 自动驾驶之心 轻舟智航等团队一篇打榜NavSim v2的工作,指出了两个问题: 为解决这些局限,北交、轻舟、燕山大学、澳洲昆士兰大学的团队提出了CATG——一种基于Constrained flow matching的规划框架。具体而言,CATG显式建模flow matching过程,这一过程本质上可缓解mode collapse,并支持多种条件信号的灵活引导。我们的核心贡献包括:其一,在flow matching过程中创新性地引入显式约束, 确保生成轨迹符合关键的安全规则和运动学准则;其二,将驾驶激进程度参数化为生成过程中的控制信号,实现对轨迹风格的精准调控。值得注意的是,在NavSim v2 挑战赛中,CATG以51.31的EPDMS得分获得亚军,并荣获创新奖。 论文标题: Beyond Imitation: Constraint-Aware Trajectory Generation with Flow Matc ...
世界模型和VLA正在逐渐走向融合统一
自动驾驶之心· 2025-11-10 11:36
观点:VLA和WA正在逐渐走向融合统一。 前两个月就有人跟我提过,VLA和WA不应该是互相排斥的两个技术路线,未来应该的融合的趋势。所以十月 份我们看到了中科院&引望团队的工作DriveVLA-W0,证明VLA+WM结合是走得通的。小米的陈龙老师也在 小红书上聊到这篇工作: 我个人认为语言预测和未来预测是两种具身都需要的能力!!! 语言 (L) → 抽象推理 • 引入互联网的海量知识。 • 负责 high-level 的逻辑、常识和推理。 世界模型 (WM) → 物理/运动规律 • 通过预测未来的像素或状态,涌现出semantics和depth,速度感知等low-level能力。 一个管"抽象思考",一个管" 物理感知",完全没必要拉踩!VLA + WM 的结合,才是通往更强通用具身智能 (AGI) 的答案 学术界早就对VLA和WM融合做了很多的探索,比较典型的工作有: VLA-RFT:在WM中强化学习微调VLA WorldVLA:视觉+语言+行为,三合一"全能模型" Unified Vision-Language-Action Model:离散化"三模态",实现生成和理解的大一统 DriveVLA-W0:W ...
招募4D标注和世界模型方向的合伙人!
自动驾驶之心· 2025-11-09 00:03
文章核心观点 - 自动驾驶之心公众号正在积极拓展业务范围 从内容平台向企业培训 求职辅导和技术服务等领域延伸[2][4] - 公司面向全球招募自动驾驶领域从业者进行合作 合作方向涵盖产品经理 4D标注 世界模型等多个前沿技术领域[4][5] - 合作模式主要包括B端企业高校培训 C端学生求职辅导 课程开发和原创内容创作[4][6] 业务拓展方向 - 企业培训需求多样化 包括技术进展梳理 发布会方案解读和行业发展总结[2] - 求职辅导需求集中在简历优化和项目经验补充方面[3] - 合作领域覆盖自动驾驶产品经理 4D标注/数据闭环 世界模型 VLA 自动驾驶大模型 强化学习和端到端等方向[5] 合作模式与资源 - 合作岗位主要面向自动驾驶培训合作 B端服务企业和高校研究院所 C端服务学生和求职人群[6] - 合作形式包括课程开发和原创文章创作[6] - 公司将提供高额酬金与丰富行业资源吸引合作伙伴[5]
英伟达内向黄仁勋汇报的36人
自动驾驶之心· 2025-11-09 00:03
作者 | Jay 来源 | 向黄仁勋汇报的英伟达36人 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 市值第一巨头英伟达里,都有谁可以直接向CEO黄仁勋汇报? 36人。 这是最新被曝光的数字。 这36个人大致分别隶属于七个职能板块—— 战略、硬件、软件、AI、公关、网络,以及老黄的一位执行助理。 老黄的新布局 首先,硬件依然是英伟达的基石。 在黄仁勋的直接下属中,有9位负责硬件相关业务——包括GPU、电信、DGX整机系统等——人数占了三分之一。 AI泡沫也好、CUDA生态也罢,英伟达的底色终究还是硬件 。 值得注意的是,AI、具身智能与自动驾驶等前沿技术,正逐渐成为黄仁勋商业版图中的"第二根支柱"。 在这一板块,老黄已布下包括 吴新宙 在内的七名大将。 接下来,就让我们一起看看,除最高战略执行层外,在这今年的人事布局中,黄仁勋究竟埋下了哪些棋子,又释放出怎样的信号。 从人数配置本身,就能看出英伟达的触角正在快速伸向那些尚未被完全探索的新大陆蔓延,借老黄的话说,叫「零 ...
滴滴和港中文最新的前馈3D重建算法UniSplat!史少帅参与~
自动驾驶之心· 2025-11-09 00:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Chen Shi等 编辑 | 自动驾驶之心 难得,滴滴也出了前馈GS方向的新工作,还是少帅参与 — UniSplat! 前馈式3D重建技术在自动驾驶领域发展很迅速,但现有工作在自动驾驶环视场景中的表现不佳,这是由于稀疏非重叠的相机视角以及复杂场景动态性双重buff导致。 针对这个问题,港中文(深圳)、滴滴和港大的团队提出UniSplat — 一种通用feed-forward框架,通过统一的潜在时空融合实现鲁棒的动态场景重建。 该框架构建3D 潜在Scaffold(一种结构化表示),利用预训练基础模型捕捉场景的几何和语义上下文。 实验表明,UniSplat的新视角合成能不还不错,即使对于原始相机覆盖范围外的视角,也能提供鲁棒且高质量的渲染结果。 PS. 立个Flag,最近打算梳理下前馈GS方向的内容,梳理下这个方向的里程碑及自驾领域结合的工作。 自动驾驶之心联合 工业界算法专家 开展了这门 《3DGS理论与算法 实战教程》! 我们花了两个月的时间 ...