Workflow
VLA
icon
搜索文档
一场关于自动驾驶VLA和世界模型的深度讨论!下周一不见不散~
自动驾驶之心· 2025-11-11 08:00
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>直播和内容获取转到 → 自动驾驶之心知识星球 点击按钮预约直播 分享介绍 主讲嘉宾 詹锟 :理想汽车视觉-语言-动作(VLA)团队高级总监。硕士毕业于北京航空航天大学自动化专业,2017 年加入百度 Apollo,负责行为预测 方面的工作。2021 年加入理想汽车,从零开始搭建自动驾驶技术栈。自那时起,我们的团队取得了一系列里程碑——高速 NoA(2022 年)、 城市 NoA(2023 年)、端到端+VLM 双系统架构(2024 年)以及 VLA 框架(2025 年)。多年来,领导着自动驾驶全流程的开发工作——从 行为预测、静态/动态感知,到世界模型、VLM 和强化学习领域的大规模基础模型研究。 许凌云 :中国科学院博士,卡内基梅隆机器人研究所博士后。共发表12篇机器人领域顶级期刊或会议文章,获取过DARPA SUBT无人车挑战 赛2019年世界冠军。研究成果主要集中在目标检测、跟踪,从2019年到2024年专注于智能驾驶算法的开发,主导过多个行车和泊车量产项目 的落地。担任TIE、TITS、TRO、I ...
中信证券:维持小鹏汽车-W(09868)“买入”评级 AI Day机器人亮相引发高度关注
智通财经· 2025-11-07 16:48
公司评级与定位 - 中信证券维持小鹏汽车“买入”评级 [1] - 公司预计从当前到2026年将逐渐从“新势力汽车公司”转变为“探索物理AI前沿技术的科技公司” [1] - 持续探索未知领域的技术能力被视为公司的核心竞争优势 [1] 技术突破与产品展示 - 小鹏汽车在2025年AI Day上分享了VLA、机器人、Robotaxi、飞行汽车四大场景的技术突破 [1] - 女性机器人的亮相和极致拟人步态引发高度关注 [1] - 随着小鹏VLA、机器人等量产落地,公司将实现技术转型 [1]
中信证券:维持小鹏汽车-W“买入”评级 AI Day机器人亮相引发高度关注
智通财经· 2025-11-07 16:43
公司评级与定位 - 中信证券维持小鹏汽车买入评级 [1] - 公司预计将从新势力汽车公司转变为探索物理AI前沿技术的科技公司 [1] - 持续探索未知领域的技术能力被视为公司的核心竞争优势 [1] 技术突破与产品进展 - 小鹏汽车在2025年AI Day上展示了VLA、机器人、Robotaxi、飞行汽车四大场景的技术突破 [1] - 女性机器人的亮相和极致拟人步态引发高度关注 [1] - 从当前到2026年,随着小鹏VLA、机器人等量产落地,公司将实现技术转型 [1]
智驾将往何处去?第一次自动驾驶圆桌纪实
自动驾驶之心· 2025-11-06 08:04
作者 | 刘斯坦 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1961979708389438749 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 和 具身智能之心 做了好几期圆桌了, 听众越来越多,影响越来越大。节前同一个机构的分号 自动驾驶之心 找我说搞一搞智驾的圆桌,我才反应过来这才是我的老本 行啊,当下就答应了。 这一次圆桌请到了博世中央研究院自动驾驶行车的负责人 孙昊博士 ,BV百度风投 副总裁柯迪 ,长安汽车泊车负责人 许凌云博士 和加州伯克利人工智能实验室博后 研究员 郑文钊博士 。博世的孙昊博士入行智驾领域十年,如今致力于面向量产的研究,DiffVLA,Impromptu VLA和IRL-VLA连续sota;柯迪总投出了很多智驾和具 身的明星公司,对行业有深刻理解;许凌云博士曾在多家主机厂担任技术高管,对量产和高阶算法的产品化落地极有心得;而郑文钊博士是OCC感知和表征学习领域 的顶流,代表了全世界最 ...
自动驾驶“黑话”使用手册:新势力造车又“造词”
36氪· 2025-10-20 16:33
行业技术趋势与话语权竞争 - 自动驾驶行业出现大量技术“黑话”,如VLA(视觉语言动作模型)和“世界模型”,这反映了车企在硬件同质化后围绕下一代技术话语权的争夺战 [1] - 智驾能力成为新势力最关键的身份标签,抢先定义未来意味着抢占用户认知与技术品牌高度 [1] - 存在“期货式”技术发布现象,有车企高管坦言团队常在技术未成熟时被推至台前发布,导致交付节点压力巨大 [2] 技术演进路径:从规则到特斯拉引领 - 2022年前行业技术路径由特斯拉和Waymo定义,早期辅助驾驶基于工程师编写的规则,分为感知、规划、控制三大模块 [3] - 特斯拉自2016年起引领行业从规则时代走向AI,并在2021年AI DAY公布BEV+Transformer架构,将多摄像头2D图像统一投射形成360°鸟瞰图,实现跨摄像头特征“前融合” [3] - BEV+Transformer使特斯拉摆脱对高精地图依赖,仅凭传感器实现广泛场景泛化,并在FSD Beta V11将NOA功能从高速扩展到城市道路 [4] - 2022-2023年,小鹏XNGP、蔚来NOP+、理想AD Max 3.0、华为ADS2.0相继实现自研BEV+Transformer方案量产,并展开无图NOA“开城”竞速 [4] 范式转移:端到端技术 - 特斯拉在2022年AI DAY推动以“端到端”为核心的范式转移,用庞大神经网络同时处理感知、规划,取代30万行代码 [5][6] - 中国新势力集体转向端到端架构,小鹏和华为早期采用保守的“多段式”端到端,将感知和规划模块分别用模型取代 [6] - 小鹏在2024年中向所有扶摇架构车型推送“一段式”端到端系统,华为ADS 3.0宣布升级为“端到端”架构 [6][7] - 地平线将端到端系统演化分为三代:第一代两段式、第二代一段式加重后处理、第三代更彻底的端到端 [8] - 地平线CEO余凯在2024年4月坦言,当时国内还没有真正的一段式端到端 [8] 新范式:VLA模型的应用与竞赛 - VLA模型最初用于让机器人理解人类语言指令并执行动作,自动驾驶汽车被视为“轮式机器人” [9][10] - 特斯拉的端到端系统架构被认为应用了VLA理念,元戎启行是首个公开宣称将VLA技术应用于自动驾驶的公司 [10] - 理想在2025年3月将其双系统方案切换为VLA方案,并于2025年8月在理想i8上率先实现量产 [10] - 小鹏计划2025年三季度推送其VLA方案,在车端堆了2200 Tops算力,其中约1200 Tops用于辅助驾驶 [11] 算力竞赛:云端与车端 - 算力竞赛蔓延到云端,特斯拉2025年预计累计储备8.5万颗英伟达H100,小鹏云端算力规模为10 EFlops,理想超过13 EFlops [11] - 小鹏和理想用云端算力研发大参数量基座模型,小鹏基座模型参数量为720亿,是主流VLA模型的35倍 [12] 世界模型:从仿真到车端控制 - 世界模型研究始于2018年,让AI智能体通过“想象”进行规划学习,特斯拉通过占用网络构建3D空间的做法应用了此思路 [13] - 理想和小鹏将世界模型用于仿真测试和云端训练,理想用其搭建“考试系统”,小鹏用其训练720亿参数基座模型 [13] - 蔚来和华为更激进地将世界模型直接部署于车端,蔚来命名NWM,能在行驶中每0.1秒生成216种可能轨迹并选优 [14] - 华为2025年4月发布WEWA架构,同样将世界模型用于实时控车,并视其为“通向自动驾驶的终极方案” [15] 关键技术术语解析 - BEV+Transformer:特斯拉提出的视觉感知技术,将多摄像头2D图像投射到统一3D俯视坐标系形成360°环境感知 [18] - 占用网络:用于3D环境感知的AI模型,将周围空间划分为微小体素来识别未知物体,特斯拉提出后国内车企跟进自研 [19] - 端到端:系统接收传感器信号后直接输出行驶轨迹控制车辆,特斯拉FSD V12首次应用 [29] - VLA:视觉-语言-动作模型,通过海量“图像-文本-动作”数据协同训练,使机器能根据语言指令或视觉理解执行动作 [31] - 世界模型:让智能体内部对真实世界动态规律建模模拟的模型,用于预测未来状态序列 [39]
新势力卖车,为何满嘴“黑话”?
虎嗅· 2025-10-20 15:22
行业技术演进背景 - 自动驾驶行业技术术语频出,如“端到端”、“VLA”、“世界模型”,反映了下一代技术话语权的争夺[1] - 当硬件配置趋于同质化,智能驾驶能力成为新势力车企最关键的身份标签和品牌差异化要素[1] - 技术“黑话”不仅是技术路线的宣言,更是对技术品牌的精心包装,但背后存在落地体验落差与研发团队承压的问题[2] 技术架构演进:从规则到BEV - 早期辅助驾驶系统基于工程师编写的规则,分为感知、规划、控制三大模块[4] - 特斯拉在2021年AI DAY上公布BEV+Transformer技术架构,将多个摄像头2D图像统一投射到俯视坐标系形成360°鸟瞰图,有效解决遮挡与透视问题[4] - BEV+Transformer实现了跨摄像头特征的“前融合”,相比传统“后融合”方法大大提升了感知能力,并使特斯拉摆脱了对高精地图的依赖[5][6] - 2022-2023年,小鹏XNGP、蔚来NOP+、理想AD Max 3.0、华为ADS2.0相继实现自研BEV+Transformer方案量产,并展开无图NOA的“开城”竞速[8] 范式转移:端到端技术 - 特斯拉在2022年AI DAY披露FSD Beta V12架构,用一个庞大神经网络同时处理感知、规划,取代30万行代码,推动以“端到端”为核心的范式转移[9] - 中国新势力集体转向端到端架构,但早期出于安全考量,小鹏和华为采用相对保守的“多段式”端到端,将感知和规划模块分别用模型取代[10] - 小鹏在2024年中才向所有扶摇架构车型推送“一段式”端到端系统,华为ADS 3.0也宣布升级为“端到端”架构[10] - 理想在2024年发布“端到端+VLM”双系统方案,端到端模型负责“快思考”处理常规场景,VLM模型负责“深思考”应对复杂情况[12] - 地平线将端到端系统演化分为三代:第一代两段式、第二代一段式加重后处理、第三代更彻底的端到端,实现更拟人驾驶体验[14][16] 新一代技术架构:VLA与世界模型 - VLA模型将视觉感知、语言理解与物理动作控制关联,让机器根据人类语言指令或视觉场景理解执行动作[15][46] - 理想在2025年3月将双系统方案切换为VLA方案,并于2024年8月在理想i8上率先实现量产;小鹏计划2024年三季度推送其VLA方案[18] - 世界模型让AI智能体通过“想象”进行规划学习,再迁移到真实环境;蔚来直接将世界模型部署到车端命名为NWM,华为发布WEWA架构同样将世界模型用于实时控车[21][24][25] - 特斯拉通过占用网络构建3D空间的做法应用了世界模型思路,理想和小鹏将世界模型用于仿真测试和云端训练[23] 算力竞赛与模型研发 - 小鹏在车端堆叠2200 Tops算力,其中约1200 Tops用于辅助驾驶,理想的AD Max算力为700 Tops,蔚来的神玑NX9031芯片算力1000 Tops[18] - 小鹏CEO何小鹏预测特斯拉下一代硬件平台AI 5算力将在2000 Tops-4000 Tops之间[18] - 算力竞赛蔓延到云端:特斯拉2025年计划储备累计8.5万颗英伟达H100,小鹏云端算力规模为10 EFlops,理想超过13 EFlops[18][55] - 小鹏基座模型参数量为720亿,是主流VLA模型的35倍,通过知识蒸馏技术生成较小模型再部署到车端;理想基座模型起初用于智能座舱后延用到自动驾驶[19][54] 传感器技术路线 - 自动驾驶存在纯视觉与激光雷达两大感知路线:特斯拉坚持纯视觉,理想今年起标配激光雷达,小鹏取消激光雷达改用摄像头+4D毫米波雷达,华为和蔚来在高阶方案中搭载激光雷达[36] - 激光雷达成本已下降到200美元,4D毫米波雷达常被当作激光雷达的“平替”[36] - “无图”方案通过车载传感器实时感知理解道路,不依赖高精地图,对车辆感知和决策能力要求更高[37]
理想VLM/VLA盲区减速差异
理想TOP2· 2025-10-18 16:44
技术架构差异 - VLM采用外挂式架构,作为视觉语言动作模型向端到端模型输出减速等指令,例如在盲区场景下输出8-12km/h的减速需求 [1][2] - VLA采用原生集成架构,其基座模型直接理解视频输入并综合判断道路场景、宽度和流量等因素后输出动作 [2] - VLM方案因指令式交互导致驾驶体感存在割裂感和规则感,所有路口减速至统一范围而缺乏场景差异化 [2] 性能表现对比 - VLA方案输出的盲区减速档位更连续且接近非离散状态,不同道路盲区减速的G值差异显著,更匹配实际交通流场景 [2] - VLM方案因依赖代码触发机制,其作用层级和稳定性存在不确定性,完全采信有风险而部分采信效果可能偏弱 [3] 模型能力基础 - VLM基于Qwen等基座模型,通过特定场景视频和图像训练以获得对丁字路口等场景的理解能力 [1] - VLA使用自研基座模型构建盲区类场景的理解工作流,直接进行综合判断并输出动作 [2]
【汽车智能化10月投资策略】先发优势稳固,后发发力追赶,继续看好智能化主线!
文章核心观点 - 市场预计在第四季度将重新重视智能化的投资机会,认为智能化是AI在物理世界的重要应用,未来3-5年有望超预期发展 [2] - 2026年被预计为Robotaxi大年,核心玩家将加速入局L4级别自动驾驶 [2] - 当前智能化产业的投资逻辑为“港股>A股且软件>硬件且B端>C端”,推荐组合包括小鹏汽车-W、地平线机器人-W、曹操出行 [4][9] Q4智能化投资机会分析 - 与去年Q4相比,今年Q4的智能化逻辑更强调AI本身的演绎,而非与汽车逻辑的共振,产业兑现能力因玩家能力上台阶而变强 [3][9] - 投资焦点从去年的硬件机会和C端销量带动,转向今年的软件机会和B端突破 [3][9] - Q4存在多项重要催化剂,包括特斯拉V14版本发布、小鹏科技日披露Robotaxi计划、小马智行新增500台无人车且有望毛利转正、地平线HSD上市等 [2][8] 智能化市场回顾与展望(8-10月) - 8月智能化关键词为新一代底层架构迭代,理想VLA、小鹏P7 VLA+VLM、元戎启行方案相继上车,城市NOA级智能化渗透率达23.3% [10] - 9月智能化关键词为梯队间体验绝对差异缩小,小鹏/华为/理想稳居第一梯队,蔚来/小米快速跟进,城市NOA渗透率维持在23.0% [10] - 10月展望关键词为智驾战略调整,重点关注特斯拉FSD V14、小鹏人事变动、极氪9X及小鹏P7的VLA+VLM落地效果 [10] 消费者买单意愿与市场预测 - 2025-2027年,汽车智能化的核心任务是推动国内新能源渗透率从50%向80%+突破,商业模式以帮助车企卖车的硬件为主 [20] - 2028-2030年,Robotaxi有望实现大规模商业化落地,开启汽车出行革命的质变 [20] - 预测显示,国内新能源乘用车城市NOA智驾销量将从2024年的118万辆增长至2027年的1001万辆,渗透率从11%提升至65% [21] 车企智能化能力与竞争格局 - 2025年Q3,新势力自研方阵智驾表现亮眼,小鹏/华为/理想稳居第一梯队,蔚来/小米快速跟进达到类第一梯队水平 [48] - 各车企技术路径分化,特斯拉/小鹏坚持纯视觉方案,华为全栈自研能力领先,国内其他车企紧密追赶 [51][52] - 8月分品牌数据显示,问界、智界、特斯拉等品牌的城市NOA智驾渗透率接近100%,小鹏为76.1%,理想为63.2% [27][28] 智能化产业链与标的梳理 - 产业链覆盖感知、决策、执行等环节,核心公司包括舜宇光学、速腾聚创、英伟达、德赛西威、伯特利等 [14] - 下游应用可分为Robotaxi视角(一体化、技术提供商+运营分成、网约车转型)、Robovan视角和C端卖车视角 [4] - 第三方智驾供应商积极推出新方案,如华为ADS 4.0、地平线J6系列、小马智行第七代robotaxi等,域控制器和底盘赛道玩家增多 [59] 新车智能化亮点汇总 - 小鹏G7 Ultra版全球首发图灵AI芯片,车端有效算力达2250TOPS,并行业首发本地端VLA+VLM大模型 [71] - 理想i8搭载VLA司机大模型,实现防御驾驶、三点掉头等功能,并计划年底向AD Pro车型全量推送城市NOA [72] - 小米YU7全系标配英伟达Thor芯片,支持城市NOA;小鹏MONA M03 Max首次将城市NOA下沉至15万元区间 [65][68]
观点分享:VLA解决的是概念认知,无法有效的建模真实世界的四维时空?
自动驾驶之心· 2025-10-14 15:12
智能驾驶技术路线分析 - 世界模型被视为智能驾驶的上限,通过视频为核心进行跨模态预测和重建,让系统学习时空和物理规律,再叠加语言层实现交互与知识注入[2] - 世界模型解决时空认知问题,而语言模型解决概念认知问题,语言模型因低带宽和稀疏性无法有效建模真实世界的四维时空[2] - 世界模型建立高带宽认知系统,直接基于视频端构建能力,而非依赖语言转换[3] - 自动驾驶终极目标是通过开放集指令交互实现用户随意表达指令并执行[3] VLA与WA技术差异 - VLA本质是语言模型的模态扩展,根基仍在语言模型上,类似于在语言体系上不断加模态[3] - 华为实际践行世界模型路径,蔚来早在去年七月份前就提出世界模型概念,VLA和WA更多是表述方式差异[5] - 技术路线关键区别在于是否真正建立时空认知能力,而非仅在语言模型上做加法[5] 语言模型在自动驾驶中的价值 - 语言模型提供海量互联网案例数据,尤其是彩色案例对自动驾驶训练非常有帮助[7] - 通过链式推理带来逻辑推理能力,弥补世界模型在细粒度推理方面的不足[7] - 实现自然语言人机交互,用户可直接用语言指令车辆操作[7] - 语言模型三大价值包括物理规律内建、时空操作能力以及推理与人机交互功能[6][7] 自动驾驶行业发展趋势 - 行业当前高度内卷,前沿技术栈趋于收敛,量产方案趋同[9] - VLA与WA路线之争背后是更大的行业变革,破局成为焦点话题[9] - 行业变革对个人既是挑战也是机遇,综合型人才更受青睐,技术栈丰富者更具优势[11] - 行业壁垒因试错成本高而提升,缺乏完整学习体系加剧竞争难度[13] 自动驾驶社区生态建设 - 自动驾驶之心知识星球已聚集超过4000名成员,覆盖近300家机构与自驾公司[13][25][107] - 社区提供40多项技术路线资源,包括VLA学习路线、世界模型应用及端到端自动驾驶等[14][26] - 社区与多家自动驾驶公司建立内推机制,提供岗位直推机会[18][19] - 社区汇总近60个数据集、40多个开源项目及主流仿真平台,助力技术学习与项目实践[25][26][43][45]
快速结构化深度了解理想AI/自动驾驶/VLA手册
理想TOP2· 2025-10-10 19:19
公司战略转型与愿景 - 创办理想汽车的动机是寻求比汽车之家大十倍以上的行业机会,基于对自动驾驶实现的信念和行业变革期的判断[1] - 公司于2022年9月内部明确、2023年1月28日通过全员信正式将自身定义为人工智能公司[2] - 公司核心驱动力是参与OpenAI定义的AI五阶段发展,最终目标是AI超越人类组织能力,自动驾驶成为中短期重点,中长期业务可能变化[1] 关键战略判断 - 坚信人工智能将实现知识、认知和能力的平权,AI对公司的意义是全部[2] - 判断基座模型是人工智能时代的操作系统+编程语言,是新一代入口,无论多难公司一定要做[2] - 当前所有行动都是为了获得AGI的L3和自动驾驶L4的门票[2] - 判断大语言模型与自动驾驶将合二为一变为VLA,公司必须保证其大语言模型基座模型是中国前三[3] - 目标三年内推出摘掉方向盘的车,需要VLA基座模型、顶级人才和足够算力支持[3] 技术发展路径与里程碑 - 2024年3月GTC大会分享双系统架构,输入传感器信息输出轨迹,算力储备为1.4eFlops[3] - 2024年6月李想定义L3为有监督自动驾驶、L4为无监督自动驾驶,给出三季度内测、1000万Clips最早2024年底最晚2025年初全量推送预期,L4三年内一定实现[3] - 2025年3月GTC分享VLA,明确VLM由端到端+VLM两个模型组成,VLA是一个模型具备快慢思考能力,输出action token[4] - VLA快慢思考均输出action token,通过diffusion进一步优化轨迹,用户可直接与模型对话下达指令[4] VLA基座模型核心技术 - 从零开始设计训练适合VLA的基座模型,因开源模型缺乏良好3D空间理解能力[6] - 采用MoE架构和Sparse Attention实现稀疏化,在参数量扩容时不大幅增加推理负担[7] - 训练中加入大量3D数据和自动驾驶图文数据,减少文史类数据比例,并加入未来帧预测和稠密深度预测等任务[7][8] - 训练模型学习人类思考过程并自主切换快慢思考,快思考直接输出action token,慢思考经过固定简短CoT模板输出action token[8] - 采用小词表和投机推理提升CoT效率,对action token创新使用并行解码[8] 轨迹生成与系统优化 - 利用diffusion将action token解码成最终驾驶轨迹,预测自车及他车行人轨迹,提升复杂交通博弈能力[10] - 使用多层Dit实现“开快点”等指令功能,采用ode采样器使diffusion在2~3步内生成稳定轨迹,解决效率问题[10] - 通过端到端可训VLA模型和3D重建联合优化解决强化学习两大限制,让系统超越人类驾驶水平[11] - 3D高斯具备出色多尺度3D几何表达能力和丰富语义,通过图片RGB自监督训练充分利用真实数据[5] 技术研发与论文成果 - 2024年2月提出DriveVLM,2024年6月提出Delphi端到端自动驾驶视频生成方法[11][12] - 2024年10月提出MVGS实现最先进渲染性能,提出首个基于Dit的生成长时间高一致性视频框架[12] - 2024年12月提出GaussianAD,探索以视觉为中心的端到端自动驾驶显式稀疏点架构[13] - 2025年4月发布MCAF多模态粗到细注意力聚焦框架,解决长视频理解关键瓶颈[13] - 2025年6月发布DriveAction基准测试集,包含2610个驾驶场景中生成的16185对问答数据[13]