130多天后再谈AI!李想透露实现VLA的三个阶段,回应“智驾”是否该叫停

文章核心观点 - 理想汽车董事长李想提出,人工智能成为“生产工具”是其真正爆发的标志,而公司研发的VLA司机大模型正是旨在成为交通领域的专业生产工具,实现从辅助工具到生产工具的跨越 [1][2] - VLA模型被视为实现全自动驾驶的关键技术路径,是当前能力最强的架构,但其上车应用对芯片硬件和公司基本功提出了极高要求 [4][6] 人工智能工具层级与演进 - AI工具可划分为信息工具、辅助工具和生产工具三个层级,人工智能变成生产工具才是其真正爆发的时刻 [1] - 判断Agent是否真正智能的关键在于它是否成为生产工具,就像人类雇用司机一样 [2] - 对于理想汽车,VLA司机大模型以“司机Agent”的产品形态呈现,用户可通过自然语言与其沟通 [2] VLA模型的技术定义与优势 - VLA即视觉语言动作模型,输入文本和视觉数据,输出可执行动作,天然带有AI与物理世界交互的基因 [3] - VLA模型是端到端与VLM的合体,能根据感知直接生成车辆的运动规划和决策,更接近“图像输入、控制输出”的端到端智驾理想状态 [3] - 相比传统规则方案只能推理1秒路况,端到端1.0能推理7秒,VLA模型则能对几十秒路况进行推理,在复杂场景下理解应对更好 [3] 理想汽车智能驾驶的技术演进阶段 - 第一阶段(自2021年起):自研依赖规则算法和高精地图的辅助驾驶,类似“昆虫动物智能” [4] - 第二阶段(自2023年起研究,2024年推送):端到端+VLM辅助驾驶,接近“哺乳动物智能” [4] - 第三阶段(VLA阶段):开启“人类智能”阶段,通过3D和2D视觉组合完整看到物理世界,具备语言、思维链推理能力,能看、能理解并执行行动 [4] - 公司强调端到端是VLA的基础,并未放弃端到端技术,VLA的A部分即对应端到端的具身智能执行环节 [4] VLA模型的行业意义与挑战 - VLA模型受到自动驾驶领域热捧,除理想汽车外,元戎启行等企业也在布局 [4] - VLA可能成为从L2辅助驾驶到L4自动驾驶飞跃的关键跳板,也是智能驾驶走向更广阔具身智能行业的连接点 [4][6] - 当前L2、L2+组合驾驶辅助仍属辅助工具阶段,VLA能让AI真正成为司机和交通领域的专业生产工具 [6] - VLA模型上车难度大,将端到端与VLM二合一后,车端模型参数更大,需高效实时推理和复杂世界认知能力,对车端芯片硬件要求极高 [6] 公司的能力与行业竞争壁垒 - 公司拥有编译团队、芯片能力、板子设计能力和操作系统能力,能够将两个Orin-X带宽做到足够大,以运行同等规模的VLA模型 [6] - 技术路径快速迭代升级,对尚未在端到端解决方案领域建立优势的企业形成了更高的准入壁垒,后来者居上的可能性显著降低 [6] - 许多企业做端到端很吃力,是因为在规则算法阶段就没做好,而端到端没做到极致则无法知道如何训练VLA,基本功在人工智能时代不可跳跃 [7] - 公司认为应学习苹果、特斯拉等美国顶级公司扎实的基本功,尤其是在当前竞争环境下,更是企业扎扎实实练基本功的时候 [7]