Workflow
端到端
icon
搜索文档
投注“端到端”:AI驶向物理世界,阿里云加速“闭环”
第一财经· 2025-09-27 20:39
行业趋势:AI技术范式革命 - 智能辅助驾驶技术架构正从“多模块多阶段串联”向“端到端一体化”变革,带来范式革命 [1] - 具身智能和智能辅助驾驶正推动AI从数字世界进入物理世界,Agentic AI时代到来 [1] - 行业看到“端到端”范式革命拐点到来,但面临新的技术难关 [1] 技术架构变革:端到端优势 - 传统自动驾驶采用模块化技术架构,受制于“感知-决策-规控”分阶段架构瓶颈,依赖人工定义规则 [3] - 端到端架构具备scaling law性质,实现视觉、语言和行动能力深度融合的VLA架构模型 [3] - 新架构只需关注数据和场景训练,就能实现复杂场景自主应对,带来能力快速迭代 [3] 基础设施挑战:数据与算力需求 - 传统自动驾驶训练需几个PB数据,当前主流智驾企业单次训练需10P-30P数据量 [4] - 数据量限制车企模型快速迭代,需要整体大数据并发能力提升 [4] - 具身智能需要掌握物理规律,数据分散、算力需求特殊、通信要求苛刻 [4] - 客户算力需求达万卡规模以上,对多模态数据处理和合规要求变高 [5] 阿里云解决方案:技术支撑体系 - 建立模型、AI基础设施、数据基础设施、端到端工具四大要素的技术支撑 [5] - 通过元数据管理实现对百PB级数据高效管控,降低数据备份、流动和处理成本 [5] - 支持Lance格式非结构化数据读写和训练加速,提升压缩能力减少存储空间 [5] - 架构升级加速千万级Clip数据生产和千亿级训练数据高性能检索 [5] 实际应用效果:效率提升显著 - 某车企使用阿里云方案后实现百万级任务管理,支持上万任务并发运行 [7] - 产能达30万clips/天,持续突破调度瓶颈,效率较升级前提升2-3倍 [7] - 满足机器人数据预处理、分布式部署、训练和数据远程回传需求 [7] - 80%以上中国车企和多家头部机器人企业使用阿里云大数据AI平台 [7] 生态合作与战略布局 - 与英伟达在Physical AI领域合作,集成Isaac Sim、Isaac Lab等软件工具栈 [9] - 形成覆盖数据预处理、仿真数据生成、模型训练评估的全链路平台支撑 [9] - 阿里云Data+AI在全模态兼容、弹性可扩展、安全合规方面市场领先 [9] - 公司正超越“技术供应商”角色,成为产业变革引领者 [9] 未来基础设施需求 - 具身智能对云计算有高可用性和“网存算一体”的极端通信需求 [10] - 新计算范式需要超大规模基础设施和全栈基础积累 [11] - 未来每个家庭、工厂、公司都需要众多Agent和机器人24小时服务 [11] - 每个人可能需要使用100张GPU芯片,全球可能只有5-6个超级云计算平台 [11]
基于模仿学习的端到端决定了它的上限不可能超越人类
自动驾驶之心· 2025-09-24 14:35
自动驾驶VLA技术趋势与行业认知 - 基于模仿学习的端到端自动驾驶本质是模仿人类行为,对物理世界的理解并不透彻 [1] - 端到端技术标志着智能驾驶从规则驱动向数据驱动的根本转变,但在面对复杂困难场景时仍然受限 [2] - 视觉语言模型提供了从模仿人类到成为人类的可能性,其更强大的通用泛化能力为解决corner case提供了新路径 [2] - VLA技术栈尚未收敛,一系列新算法正不断涌现 [3] 自动驾驶VLA实战课程核心内容 - 课程涵盖VLA三大子领域:作为解释器的VLM、模块化与一体化VLA、推理增强VLA [12] - 系统讲解视觉感知、语言模型、动作基础等核心技术模块 [12][21] - 包含大模型与自动驾驶结合的前沿技术:RAG、CoT、RL、MoE等 [12][21] - 提供从数据集定义到模型搭建、训练、性能提升的完整实战路径 [5][23] 课程教学团队与资质 - 讲师团队来自清华大学等顶尖院校,在ICCV、IROS、EMNLP等顶级会议发表多篇论文 [6][7][8][9][10] - 团队具备丰富的自动驾驶、大模型研发和实战经验,GitHub开源项目总Star数超过2k [6][8][10] - 教研团队联合国内外学术力量共同打造国内最新VLA实战课程 [16] 课程特色与学习价值 - 采用Just-in-Time Learning理念,直击学习痛点,帮助学员快速掌握核心技术栈 [17] - 构建领域框架,提升研究能力,帮助学员形成自己的研究体系和工作经验 [18] - 理论结合实践,配备实战环节,完成从理论到实践的完整闭环 [19][23] - 课程预计两个半月结课,采用离线视频教学加VIP群内答疑模式 [43] 自动驾驶VLA人才市场需求 - VLA/VLM大模型算法专家岗位薪资达40-70K,要求3-5年经验、硕士学历 [14] - 模型量化部署工程师薪资40-60K,要求1-3年经验、本科学历 [14] - 多模态VLA大模型方向顶尖技术人才薪资达90-120K,面向在校/应届博士 [14] - VLM实习生日薪220-400元,要求硕士学历 [14] 课程技术深度与实战项目 - 详细讲解BEV感知、目标检测、在线地图、OCC、轨迹预测等视觉感知技术 [21][32] - 涵盖Transformer基础、VL统一技术、判别式与生成式解码器等核心算法 [21] - 实战项目包括华科与小米的ReCogDrive和清华与博世的Impromptu VLA [22][23][33][35] - 大作业要求学员基于ms-swift框架搭建自己的VLA模型,完成数据准备、模型训练和微调全流程 [23][37]
自动驾驶VLA发展到哪个阶段了?现在还适合搞研究吗?
自动驾驶之心· 2025-09-22 16:04
智能驾驶技术演进 - 行业正经历从规则驱动向数据驱动的根本转变 端到端方法虽能打通上下游视角 但在复杂困难场景中仍受限 [1] - 视觉语言动作模型成为新焦点 其本质是一种更直白干净的端到端架构 取消了复杂的3D感知任务 借鉴视觉语言模型的通用泛化能力 提供解决极端案例的可能性 [1] 技术发展现状 - 自动驾驶视觉语言动作模型技术栈尚未收敛 多种算法如雨后春笋般涌现 包括模块化架构和一体化架构等不同范式 [2] - 行业面临技术栈多样化带来的入门困难 论文数量繁多且知识碎片化 缺乏高质量文档和系统实战指导 从理论到实践的过渡存在挑战 [2] 课程体系设计 - 课程采用即时学习理念 通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [3] - 构建领域框架提升研究能力 帮助学员梳理研究发展脉络 掌握核心框架 学会论文分类和创新点提取 [4] - 理论结合实践完成闭环学习 配备实战环节实现从理论到实践的完整过渡 [5] 课程内容架构 - 第一章概述视觉语言动作模型算法概念及发展历史 详细介绍开源基准测试和常见评测指标 [14][15] - 第二章聚焦视觉 语言 动作三大模块的基础知识 并扩展大模型部署使用内容 以Qwen 2.5VL-72为例讲解本地部署 [16][17] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典算法 包括DriveGPT4 TS-VLM DynRsl-VLM SENNA等 重点分析算法动机和网络结构 [18][19] - 第四章深入模块化与一体化视觉语言动作模型 涵盖BEV感知 动静态检测 占用网络 轨迹预测 序列建模 模态对齐 动作解码器 RAG 思维链 监督微调 强化学习 混合专家模型等技术要点 [20][21] - 第五章专注推理增强视觉语言动作模型子领域 讲解思维链 记忆体 工具调用等推理模块 分析长时序规划和因果解释能力 [23][24] - 第六章设置大作业实践 基于ms-swift框架开展自定义数据集训练和模型微调 提供可修改优化的演示代码 [26] 实战案例配置 - 选用华科与小米最新提出的ReCogDrive作为第四章实战案例 包含预训练 模仿学习训练和强化学习训练三阶段 涵盖GRPO和扩散模型轨迹输出等技术栈 [22] - 选用清华AIR与博世提出的Impromptu VLA作为第五章实战案例 基于开源Qwen2.5 VL进行数据集制作 训练和推理 [24] 师资与学术资源 - 教学团队来自清华大学和QS30高校 在ICCV IROS EMNLP等顶级会议发表多篇论文 具备多模态大模型与自动驾驶研发经验 [27] - 课程覆盖多项前沿研究成果 包括慕尼黑工大OpenDriveVLA 上海交大DriveMoE 博世DiffVLA UC Berkeley S4-Driver 华科ORION 阿里FutureSightDrive UCLA AutoVLA 中科院Drive-R1等 [29][30] 教学安排要求 - 课程于10月20日开课 预计两个半月完成 采用离线视频教学配合VIP群答疑和三次线上答疑 [32] - 学员需自备4090及以上算力GPU 具备自动驾驶基础 Transformer大模型 强化学习 BEV感知等技术背景 熟悉Python和PyTorch开发语言 [31]
拟派发现金红利10.3亿!药明康德实施首次中期分红
新浪财经· 2025-09-22 11:07
分红与股东回报 - 公司实施首次中期分红方案 派发现金红利共计10.3亿元 其中A股派发约8.66亿元(含税) 派发日期为9月26日 [1] - 今年以来通过年度分红、特别分红和中期分红累计派发现金红利48.8亿元 现金分红和股份回购及注销合计达68.8亿元 占2024年归母净利润70%以上 [1] 财务业绩表现 - 上半年营业收入207.99亿元 同比增长20.6% 归母净利润82.87亿元 同比增长95.5% 均创历史同期新高 [1] - 第二季度营业收入111.45亿元 首次在第二季度突破百亿规模 第二季度归属净利润48.89亿元 创历史同期新高 [1] - 经调整Non-IFRS净利润63.15亿元 同比增长44.43% [4] 业务运营与订单情况 - 截至2025年6月末持续经营业务在手订单566.9亿元 同比增长37.2% [2] - 报告期内持续经营收入204.1亿元 其中美国客户收入140.3亿元(同比增长38.4%) 欧洲客户收入23.3亿元(同比增长9.2%) 中国客户收入31.5亿元(同比下降5.2%) 其他地区客户收入9.0亿元(同比增长7.6%) [2] 业绩驱动因素 - 公司聚焦"一体化、端到端"CRDMO业务模式 持续拓展新能力、建设新产能 优化生产工艺提升经营效率 [4] - 出售联营公司WuXi XDC Cayman Inc部分股权获得投资收益约32.10亿元 占净利润比例达38.74% [4] 财务预测与指引 - 预计2025年持续经营业务收入增速从10%-15%上调至13%-17% 全年整体收入预期从415-430亿元上调至425-435亿元 [4] 应收账款状况 - 应收账款从2020年36.65亿元持续增长至2025年第一季度73.18亿元 [5] - 应收账款占营业收入比重持续攀升 从2022年15.18%上升至2023年19.59% 2024年进一步增加至20.26% [5] 股价表现 - 9月22日A股股价震荡下行 一度上涨1.83%后下跌0.10% 报108.64元/股 市值3206.5亿元 [1]
开放几个自动驾驶技术交流群(世界模型/端到端/VLA)
自动驾驶之心· 2025-09-21 00:03
欢迎大家加入一起交流相关的内容。感兴趣的同学欢迎添加小助理微信进群:AIDriver005, 备注:昵称 +方向加群。 自动驾驶之心技术交流群成立了,开学季&秋招期我们开放了几个技术交流群(世界模型/端到端/VLA等方 向)。 ...
VLA搞到现在,可能还是情绪价值的内容偏多一些......
自动驾驶之心· 2025-09-21 00:03
端到端自动驾驶技术现状 - 学术界端到端研究呈现方法远多于问题的状态,各种流派百花齐放,只要实现传感器输入到轨迹规划输出的模型串联即符合端到端范式 [1] - 工业界端到端研发更加务实,车载算力限制将许多热门模型排除在外,但工业界拥有海量驾驶数据优势 [4] - 工业界对端到端技术的研发进度可能已领先于学术界,行业已超越依靠演示和论文证明实力的阶段,转向以量产模型表现为衡量标准 [5] 数据集与技术迭代关系 - 大模型时代数据集迭代速度需与技术迭代同步,固定数据集会阻碍技术发展,摩尔定律在算力和计算机行业均有体现 [2] - 研究团队通过发布数据集维持长期的高影响力产出,互联网海量文本数据是NLP领域大模型成功的关键因素 [3][4] - 工业界数据量达天文数字,不存在数据阻碍技术迭代的问题,反而更容易辨别学术界方法的实用价值 [4] 强化学习在VLA中的应用 - 强化学习适用于无标准答案但能定义答案特征的问题,VLA应用场景符合此特点 [7] - 模仿学习基于最大似然估计,倾向于将示范结果视为最优,而强化学习通过奖励机制定义正向和负向行为特征 [8][9] - 强化学习以奖励最大化为目标,避免错误示范干扰,节省数据采集成本,例如车辆平稳抵达+10分,压实线-10分,闯红灯-20分 [9] 视觉语言大模型发展前景 - VLA短期成果情绪价值偏多,真实控车作用尚不明确,长期串联万物成为行业共识趋势 [10][11] - 量产参考需综合算法、数据、训练策略等多重因素,包括部署难度、数据替代性、复现难度等非单一测试指标 [12] - 行业主流厂商对Large Vision-Language Model的潜力均无质疑,焦点集中于实现时间预期 [11]
小鹏&理想全力攻坚的VLA路线,到底都有哪些研究方向?
自动驾驶之心· 2025-09-18 07:33
技术趋势分析 - 端到端与视觉语言动作模型标志着智能驾驶从规则驱动向数据驱动的根本性转变 [1] - 端到端模型虽能打通上下游视角,但在处理复杂困难场景时仍受限制,量产模型迭代陷入无限处理极端案例的循环 [1] - 视觉语言动作模型可视为一种更直白干净的端到端方法,取消了复杂的3D感知任务,凭借更强大的通用泛化能力为解决极端案例提供了可能性 [1] - 自动驾驶视觉语言动作模型技术栈尚未收敛,一系列算法如雨后春笋般出现 [2] 课程核心价值 - 课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例帮助学员短时间内掌握核心技术栈 [3] - 课程帮助学员梳理自动驾驶视觉语言动作模型的研究发展脉络,掌握领域核心框架,学会将论文分类并提取创新点 [4] - 课程配有实战环节,完成从理论到实践的完整闭环 [5] - 课程涵盖视觉感知、语言模块、动作模块及大模型前沿技术,包括检索增强生成、思维链、强化学习、混合专家模型等广泛技术栈 [2] 课程内容架构 - 第一章概述自动驾驶视觉语言动作模型算法概念及发展历史,介绍开源基准和常见评测指标 [9][10] - 第二章讲解视觉、语言、动作三个模块的基础知识,以及大模型与自动驾驶视觉语言动作模型的结合,包括以Qwen 2.5VL-72为例的开源大模型部署使用 [11][12] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典及最新算法,包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA等算法的动机、网络结构及核心 [13][14] - 第四章聚焦模块化与一体化视觉语言动作模型,讲解视觉感知、语言模型、动作模块的基础知识及检索增强生成、思维链、监督微调、强化学习、混合专家模型等技术 [15][16] - 第四章实战代码选取华科和小米最新提出的ReCogDrive,涵盖预训练、模仿学习训练和强化学习训练三个阶段的主流范式 [17] - 第五章聚焦推理增强视觉语言动作模型子领域,讲解长思维链推理、记忆和交互等趋势 [18][19] - 第五章实战代码选取清华AIR和博世提出的Impromptu视觉语言动作模型,基于开源Qwen2.5 VL进行数据集制作、训练和推理 [19] - 第六章大作业基于ms-swift框架,从网络构建开始,自定义数据集和加载模型,开启训练任务并进行微调 [21] 学术前沿覆盖 - 课程覆盖慕尼黑工大提出的OpenDriveVLA、上海交通大学提出的DriveMoE、博世和清华AIR提出的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等前沿算法 [24] - 课程涵盖华科&小米 ICCV2025中稿的ORION、阿里&西交团队提出的FutureSightDrive、UCLA提出的AutoVLA、中科院和华为诺亚提出的Drive-R1等最新研究 [25] 教学团队与安排 - 讲师团队包括清华大学硕士生、QS30高校博士在读研究人员,在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表多篇论文,具备多模态感知、自动驾驶视觉语言动作模型、大模型Agent等前沿算法预研经验 [22] - 课程于10月20日开课,预计两个半月结课,采用离线视频教学结合VIP群内答疑及三次线上答疑的模式 [27]
那些号称端到端包治百病的人,压根从来没做过PnC......
自动驾驶之心· 2025-09-17 07:33
端到端自动驾驶技术发展现状 - 国内新势力车企正在推进VLA(Vision-Language-Action)技术的落地和优化 而另一部分企业则聚焦WA(World Model)路线 更多车企和Tier1供应商仍处于端到端技术攻坚阶段[2] - 端到端系统通过输入传感器原始数据直接输出控制信号或自车轨迹 代表性算法包括UniAD和Sparse系列[3] - 端到端本质是实现感知信息的无损传递 解决模块化方法中人工定义感知结果无法覆盖开集场景的问题 目前工业界普遍采用模仿学习方法进行优化[4] 端到端技术挑战与行业共识 - 端到端系统虽提高性能上限但下限稳定性不足 实际落地仍需传统规控方法兜底 learning-based输出轨迹仍需经过传统PnC处理[5] - 行业共识是自动驾驶从规则驱动转向认知驱动 但端到端技术距离成熟仍有较长距离 需要更多时间沉淀[5] - 车企为突破感知模型迭代瓶颈 积极布局VLA和WA技术路线 但需理性看待端到端替代传统规控的局限性[5] 自动驾驶技术社区生态 - 自动驾驶之心知识星球社区规模已超4000人 覆盖超300家机构与自动驾驶公司 目标两年内达到近万人规模[8][102] - 社区整合40+技术方向学习路线 包括VLA、端到端、多模态大模型等前沿领域 并提供与一线产业界/学术界大佬的直接交流渠道[8][9][17] - 社区提供岗位内推机制 成员来自蔚小理、地平线、华为、英伟达等头部企业 以及国内外顶尖高校实验室[17] 技术资源体系 - 社区汇总近60+自动驾驶数据集 涵盖VLM预训练/微调/思维链/强化学习等类型 并整合3D目标检测/BEV感知/Occupancy等开源项目[37][53][55] - 提供七大福利视频教程 内容覆盖世界模型、自动驾驶大模型、Transformer等 已举办超百场专业技术直播[88][91] - 详细梳理端到端自动驾驶技术体系 包括一段式/二段式量产方案、VLA算法及里程碑方法 兼顾学术界与工业界需求[39][47]
2025年,盘一盘中国智驾的自动驾驶一号位都有谁?
自动驾驶之心· 2025-09-11 07:33
行业技术趋势 - 2023年起自动驾驶领域迎来以端到端为主导的技术转向 2024年成为行业公认的新一代量产主流方案 2025年VLA和世界模型成为下一代量产突破方向[1] - 技术架构迭代伴随研发路径 人才结构与竞争格局重新洗牌 领军人物技术判断决定团队在重构期能否站稳脚跟甚至超车领先[1] - 端到端架构正逐步成为智能驾驶新基座 大模型 世界模型 VLM方案等技术加速从学术界走向工业界[53] 理想汽车 - 郎咸朋2018年加入理想汽车担任自动驾驶负责人 职位从自动驾驶业务总经理转变为自动驾驶副总裁[5] - 2023年年底全场景NOA推送标志理想辅助驾驶从高速向城市场景延展 2024年7月15日推送无图NOA功能首次实现对先验信息依赖突破[5] - 去年E2E+VLM双系统成为业界智驾方案标杆 今年主攻VLA司机大模型已量产[5] 小米汽车 - 叶航军2021年初被雷军点将主持小米自动驾驶业务 小米SU7爆火后智能技术能力快速提升[7][8] - 1000万Clips版小米端到端辅助驾驶系统出厂即搭载 学术界推出VLA 强化学习 世界模型 3DGS等前沿工作[9] - 小米不惜代价做好辅助驾驶 正努力跻身智驾第一梯度[9] 蔚来汽车 - 任少卿2020年8月加入蔚来担任智能驾驶研发副总裁 曾担任Momenta研发总监兼联合创始人[11] - 大力推动蔚来智能驾驶技术发展 特别在城区NOA规模铺开和全域领航辅助NOP+功能发布做出重要贡献[11] - 今年主推世界行为WA自动驾驶路线 核心思路是海量使用云端仿真数据让大模型理解世界而学会驾驶[11] 小鹏汽车 - 李力耘2019年6月加入小鹏汽车 2023年8月2日接班吴新宙成为小鹏智驾总负责人[14][15] - 负责小鹏汽车高速和城市自主导航辅助驾驶系统NGP研发 是国内为数不多纯视觉方案拥簇[14][15] - 算力算法数据域控制器线控底盘全链路布局 传感器以外采为主坚持纯视觉方案[15] - 近期小鹏G7 Ultra将迎来OTA升级 AI智能辅助驾驶系统融入全场景VLA大模型[16] 比亚迪 - 杨冬生现任比亚迪副总裁兼产品规划及汽车新技术研究院院长 2005年加入比亚迪[18] - 作为DM-i超级混动系统总设计师 主导研发技术助力比亚迪新能源销量自2022年起多次夺取月度销量冠军[18] - 2024年比亚迪全系车型都将搭载天神之眼高阶智驾系统 开启全民智驾新时代[20] 地平线 - 苏箐2022年加入地平线担任高阶智能驾驶项目总负责人 曾任华为汽车BU智能驾驶产品线总裁[22] - 地平线端到端HSD方案搭载J6P量产上车 自研芯片+智驾方案双管齐下[22] - 大众汽车与地平线成立合资企业 苏箐担任CTO[22] Momenta - 曹旭东2016年创办Momenta 提出一个飞轮两条腿战略 飞轮是数据驱动 两条腿是量产自动驾驶L2和完全无人驾驶L4[25] - 战略核心理念是通过L2量产车收集数据反哺L4技术迭代 形成数据→算法→产品→数据正向循环[25] - 技术路线选择端到端大模型和无图方案 2025年已跻身智驾第一梯队成为全球品牌共同选择[26] - R6飞轮大模型频繁现身公众视野 2019年把核心精力投入数据领域布局进入成果初现阶段[26] 大疆车载(卓驭) - 沈劭劼担任大疆车载总负责人 香港科技大学电子和计算机工程系副教授 科大-DJI联合创新实验室主任[30] - 截至2025年5月卓驭已与9家主流车企达成合作 包括大众汽车 上汽通用五菱 比亚迪等[31] - 已有20余款车型量产 还有30多款车型即将量产落地 预计2025年有200万台车型搭载大疆车载智驾系统上路[31] 英伟达 - 吴新宙2023年加入英伟达现任自动驾驶团队总负责人 曾担任小鹏汽车自动驾驶副总裁[35][36] - 在小鹏汽车期间带领团队完成高速NGP和城市NGP量产落地 推动小鹏汽车在智能驾驶领域发展[35] - 英伟达自动驾驶推出覆盖从数据 感知到大模型智能体的全栈技术[36] 百度 - 王亮现任百度智能驾驶事业群组首席研发架构师 IDG技术委员会主席 阿波罗智能技术董事[40] - 2024年主导VTA基础大模型和纯视觉智驾路线在极越01车型实现量产应用[40] - 带领团队推出支持全国300城覆盖的领航辅助驾驶方案[40] 博世中国 - 吴永桥2024年1月出任博世智能驾驶与控制系统事业部中国区总裁 推动博世城市NOA产品落地[42] - 2024年5月发布首款城市NOA产品并计划年底覆盖24个城市[42] - 主张主机厂聚焦用户体验而供应商承担标准配置开发 提出智能驾驶技术趋同 特斯拉算法领先等观点[42] - 博世坚定推进一段式端到端技术 与文远知行联合基于英伟达Orin Y打造一段式端到端方案8月底在奇瑞高端车型量产[43] 小马智行 - 楼天城小马智行联合创始人兼首席技术官 中国公认大学生计算机编程第一人 算法领域卓越成就[45] - 主导开发世界模型技术 使小马智行在L4级自动驾驶领域建立独特技术优势[45] 元戎启行 - 周光2021年正式任职元戎启行CEO 公司完成阿里巴巴战略领投3亿美元B轮融资[48] - 近日发布最新一代搭载VLA模型的辅助驾驶平台DeepRoute IO 2.0[49]
后端到端时代:我们必须寻找新的道路吗?
自动驾驶之心· 2025-09-02 07:32
行业技术发展趋势 - 2025年VLA(Vision-Language-Action)成为行业新焦点,但技术路径出现明显分歧,部分企业积极推广而部分头部团队选择回避 [1][5][6] - 相较于2023-2024年端到端技术达成行业共识的局面,VLA技术路线呈现"分歧中的探索"态势 [5][6] - 技术切换期被视为占领用户心智和证明研发优势的关键窗口 [4] 企业战略布局差异 - 理想汽车通过VLA巩固端到端技术红利带来的领先优势 [4] - 元戎启行借助VLA提升辅助驾驶系统性能上限 [4] - 小鹏汽车将具身智能领域积累的VLA技术迁移至辅助驾驶系统,并采用自研高算力芯片解决实时性问题 [4][22] - 华为ADS明确主张WA(World Model + Action)为自动驾驶终极方案,回避VLA路径 [5] - 蔚来在低速场景应用世界模型但对外宣传保持低调 [5] - 地平线否认其HSD系统属于VLA,坚持VA(Vision-Action)技术路线 [23] VLA技术原理与应用 - VLA通过视觉模块感知环境、语言模块表述任务、动作模块执行驾驶行为,实现感知-决策一体化 [9] - 技术优势在于结合端到端的性能与语言的可解释性,理想状态下可映射人类驾驶本能 [10] - Wayve的LINGO系列实现边驾驶边用自然语言解释决策,LINGO-2支持实时语言指令调整行为 [12] - OpenDriveVLA融合2D/3D视觉token与语言生成控制轨迹,在Nuscenes数据集取得最优结果 [14][16] - 谷歌Deepmind的RT系列将互联网视觉-语言知识迁移至机器人控制,提升泛化能力 [17][18] 技术挑战与局限性 - 自然语言存在模糊性与不完备性,例如"慢一点"等指令缺乏精确动作约束 [19] - 语言-动作不对称性问题导致监督学习存在噪声,语言主要在任务级别有效而非细粒度控制 [19] - 多模态Transformer推理开销巨大,OpenVLA模型约7B参数需15GB显存且运行频率仅6Hz,低于行业10Hz标准 [21] - 实际部署中多用于上层任务分配,轨迹输出仍由传统模型执行并需兜底机制 [23] 替代技术路径发展 - VA(Vision-Action)方案通过内隐世界模型实现环境状态向量化表示,华为与地平线采用此路径 [23] - 地平线HSD系统通过深度神经网络实现决策统一性,在不同场景下保持自适应行为 [25] - 采用平衡数据分布并筛选优化人类驾驶数据,使决策更符合直觉 [25] - 坚持模块最小化架构,屏蔽激光雷达输入以避免感知依赖,保持系统简洁性与可维护性 [28] - 纯视觉版本结合软硬件一体方案具备成本优势 [31] 行业本质问题与未来方向 - 辅助驾驶核心问题仍是缺乏对世界的深度理解能力 [33] - 语言作为新输入维度类似激光雷达,提供抽象能力但非终极解决方案 [33] - 行业面临选择新道路或深化现有路径的战略抉择,不同技术路线均存在发展机会 [34]