公司战略与技术路线演变 - 公司创始人早在2019年就提出“如果只有电动化,电动车没有未来”的观点,将智能化视为汽车下半场的核心战场,并长期坚持“All in 智驾”的战略[1] - 公司在自动驾驶研发上同时推进两条技术路线,当第二代VLA模型在训练中表现出“涌现”特性后,决定暂停传统路线研发,全面聚焦于以大模型为核心的VLA体系[3] - 为打造第二代VLA,公司投入高达20亿元进行研发,经历了长期探索和自我怀疑,最终在技术突破后解决了此前难以解决的问题[3][23] 新一代VLA技术架构与突破 - 公司的新一代VLA技术拆除了“语言”作为中间转译环节,实现了从视觉到动作的直接映射,解决了标准VLA因语言转换导致的信息损耗和延迟问题[15][18] - 第二代VLA的训练采用自监督模式,无需人工标注,让模型直接从海量的“路景→驾驶动作”数据中学习物理世界规律,从而能够处理更大规模的数据[18] - 新架构的执行层包含两个并行步骤:通过潜在表征进行世界模拟和强化学习,以及将驾驶方案拆解为轨迹表征后精准执行动作[19] - 技术突破后,自动驾驶系统展现出前所未有的能力,如自动识别路人招手停车、观察前车轮胎角度判断变道意图等“涌现”行为[13] 数据、算力与模型规模 - 公司用于训练的数据量快速增长,从4月的2000万Clips,到6月的5000万Clips,至11月科技日已使用近1亿Clips数据,相当于驾驶35000年遇到的极限场景总和[13] - 公司的云端算力集群规模持续扩大,从2024年初的万卡水平,发展到6月向两万卡迈进,至11月科技日已在阿里云上使用3万张卡,并计划在明年扩展至5万甚至10万张卡[21] - 通过优化针对图灵AI芯片的编译器和软件栈,公司第二代VLA的推理效率提高了12倍[21] 行业竞争与挑战 - 公司在智能驾驶领域的领先地位面临激烈挑战,理想汽车在ICCV顶会展示了“世界模型+训练闭环”方案,华为ADS 4.0乾崑智驾系统搭载量已突破100万辆,覆盖11家车企、28款车型[2] - VLA技术路线受到行业挑战,主要集中于两点:对多模态数据量、算力等资源需求庞大,以及语言转换步骤可能导致信息丢失和决策延迟[11] - 公司自动驾驶研发曾进入瓶颈期,意识到仅靠解决个别极端案例无法实现L4级自动驾驶,必须通过创新架构突破系统上限[11] 组织架构与人才传承 - 公司于10月9日进行重要人事调整,原智驾负责人李力耘卸任,由世界基座模型负责人刘先明接棒自动驾驶一号位[1] - 自动驾驶技术的演进是薪火相传的过程,前任负责人吴新宙完成了开疆拓土,李力耘实现了量产落地,为刘先明推动技术向物理AI时代跨越奠定了基础[10] - 刘先明博士在6月的CVPR顶会上发表的演讲,奠定了公司整个智驾框架的基础,其提出的三阶段基座模型是技术演进的核心[5][6]
守擂“AI王冠”,小鹏拆掉的拐杖不止语言