中国的“马斯克” 李想分享VLA训练细节

公司战略与技术路径 - 理想汽车创始人李想将AI工具分为信息工具、辅助工具和生产工具，并认为生产工具意味着AI进入价值创造的核心[2] - 公司当前的VLA（视觉-语言-行动）战略旨在释放AI的Agent能力，使其能够独立完成专业工作，承担“替代性”角色[4] - 公司正在训练一个320亿参数规模的VL（视觉-语言）基座模型，以达成其VLA目标[5] - 公司今年的训练卡采购量是原定计划的三倍，反映出其在自研基础模型上的战略押注[6] - 公司坚持构建自己的基座模型，而非完全依赖第三方平台，目标是打造为汽车场景服务的智能体[6] - 公司从底层操作系统到多模态大模型进行全面自研，构建技术链闭环[7] - 在公司的路径图中，AI被定位为系统性、可扩展、可承担主角的“生产工具”，VLA是技术跃迁的起点和重塑产业的尝试[7] 技术演进与模型开发 - 理想汽车将VLA发展划分为三个阶段：第一阶段是以规则算法为主的“昆虫智能”；第二阶段是当前正在推进的端到端模型；第三阶段是具备类人智能的VLA阶段[4][5] - 公司训练VL基座模型包含三个关键部分：1) 纳入大量3D视觉数据和高清2D图像数据，后者分辨率相比开源多模态模型提升了10倍；2) 加入大量与交通、驾驶行为相关的语言语料；3) 使用视觉与语言的联合语料（VL语料）[5][6] - 公司强调VL语料对VLA至关重要，旨在帮助模型建立从视觉到语言再到行动的深度联结能力，目标是打造能看懂真实世界、理解物理规则、具备行动意图的大模型[6] - 公司认为技术演化的关键正从模型的堆叠走向具象能力的整合与释放[2] 外部合作与开源影响 - 国产大模型DeepSeek在技术架构、推理能力和工程效率上的表现，促使理想汽车决策层重新评估其VLA战略的实施路径[2] - 得益于DeepSeek的开源，公司原计划年底完成的基座模型，其基础设施建设提前了九个月完成[2] - 出于“被帮助之后的反馈机制”，理想汽车选择开源自研四年的星环OS整车操作系统[2] - 在春节期间，理想团队围绕DeepSeek的MoE结构、训练效率、部署难度等进行了全面研究和详尽评估[3] - 公司将DeepSeek比作“Linux时刻”，而自身追逐的则是“安卓时刻”，认为真正的爆发在于将语言模型部署于特定领域以释放完整的应用能力[7] 行业展望与公司定位 - 李想认为辅助驾驶行业当前正处于“黎明前的黑暗”，争议与困境并存，但这正是新范式到来的前夜[7] - 在交通领域，公司希望借由VLA构建出具备认知、推理和行动能力的类人驾驶模型[7] - 产业层面正在发生一场从传统规则驱动到智能体驱动的范式跃迁[7]