Workflow
VLA(视觉语言行动模型)
icon
搜索文档
L4大方向有了:理想自动驾驶团队,在全球AI顶会上揭幕新范式
机器之心· 2025-10-31 12:11
AI范式转变与行业趋势 - AI发展进入下半场,从依赖人类生成数据转向体验式学习的范式转变[1] - 要实现超越人类智能,AI必须超越模仿人类,依赖可随智能体改进而扩展的新数据源[1] - 在自动驾驶领域,AI范式转变趋势已显现,理想汽车在ICCV 2025提出全球首个将世界模型与强化学习闭环落地于量产自动驾驶系统的完整架构[2][5] 理想汽车辅助驾驶技术演进 - 辅助驾驶技术从规则算法发展到以VLA为核心的可交互自动驾驶方案[7] - 去年率先提出双系统方案,使用E2E和VLM结合构建辅助驾驶系统,成为AI时代主流路线[7] - 端到端辅助驾驶上线后,MPI水平在近12个月内提升明显[9] - 当训练数据扩展到1000万Clips后,基本端到端方式面临边际效应,技术提升出现瓶颈[11] 世界模型与训练闭环架构 - 构建从数据闭环到训练闭环的系统化思路,核心在于训练目标的达成而非单纯收集数据[5][12] - 系统包含具备先验知识的VLA车端模型和云端世界模型训练环境,通过强化学习体系实现迭代训练[14] - 世界模型系统需要场景重建、多传感器渲染、多模态生成、交通智能体、3D资产库等关键技术支撑[15] - 理想探索重建+生成路线,新一代AI系统具备重建稳定性和生成泛化能力[15] 合成数据与仿真技术突破 - 可通过提示词直接生成全部视频和点云,应用于新法规准入条件和新地区环境等少见场景[22] - 合成数据能力使训练数据配比更合理,辅助驾驶系统在实际道路的稳定性和泛化能力大幅改善[24] - 提出层次结构统一高斯图元,增强模型容量,能够建模大规模场景并重建任意动态元素[17][21] - 开发可编辑视频模拟框架RoboPearls,能够从演示视频构建照片般逼真、视图一致的模拟[32] 研究成果与学术贡献 - 自2021年起,自动驾驶团队有32篇论文中稿学术会议,研究方向从感知BEV E2E扩展到VLM/VLA/世界模型等前沿领域[28] - ICCV 2025大会上有五篇论文入选,覆盖3D数据集、端到端自动驾驶框架、3D重建、视频模拟等方面[28] - 提出业界首个大规模3D真实汽车数据集3DRealCar,通过对2500辆汽车精细3D扫描获得高保真图像和点云[28] - 开发端到端自动驾驶框架World4Drive,利用视觉基础模型构建潜在世界模型生成和评估多模态规划轨迹[30] 技术挑战与未来方向 - 强化学习引擎是辅助驾驶领域最具挑战的应用场景,要求泛化性、时效性和大规模并发[35] - 强化学习引擎五大关键因素:世界模型、3D资产、仿真智能体、奖励模型和性能优化[35][38] - 交互式智能体是比单车L4更困难的挑战,可通过调整强化学习reward约束多智能体行为[38] - 理想正在开展的交互智能体工作MAD即将发表[39] 公司AI战略与行业影响 - 研发资金近一半投入人工智能领域,已建立四支AI团队分别负责辅助驾驶、理想同学、智能工业和智能商业[43] - 两大战略级AI产品辅助驾驶和理想同学自2024年以来快速迭代,取得重大技术突破[43] - 成为行业首个推送VLA司机大模型的汽车企业,基于MindGPT的理想同学已上线手机App[43] - 开源部分辅助驾驶代码和数据库,被超过3200名开发者收藏或调用,VLA范式逐渐成为行业共识[43]
理想汽车推送OTA 8.0版本,李想称公司辅助驾驶开始“全面领先”,VLA优于世界模型?
每日经济新闻· 2025-09-12 18:06
理想汽车OTA8.0系统升级 - 理想汽车推送OTA8.0版本车机系统 辅助驾驶、智能座舱和智能电动迎来升级 [1][3] - 自研VLA司机大模型向理想MEGA和理想L系列AD Max车型全量推送 [3] - VLA是第三代辅助驾驶技术 具备"看得懂道路状况 听得懂人类指挥 记得住车主习惯"特性 [3] VLA技术特性与功能 - VLA司机大模型具备环境理解和推理能力 在复杂路口选路更精准 [6] - 拥有车速记忆功能 可记住用户特定道路车速偏好并通过对话设定 [6] - VLA泊车实现自主寻路、漫游找车位、导航终点靠边停车等功能 [6] - 9月10日开始向AD Max车型推送 但初期为缺少某功能的"残血版" [4][6] VLA技术优势与行业地位 - VLA可被视为端到端的"智能增强版" 引入思维链实现可解释性决策 [7][8] - 解决传统模型长尾场景挑战 泛化能力更强 下限超过端到端上限 [7][8][11] - 多模态大模型驱动 语言模型作为"中台"转译感知内容为执行决策 [8] - 理想汽车、元戎启行、小鹏汽车等多家车企竞相布局VLA领域 [7] 行业技术路线对比 - 华为采用WA世界行为模型 直接通过Vision信息输入控车 [12] - 世界模型通过感知数据构建物理世界内部模拟 实现预测和推理 [12] - VLA与世界模型并不矛盾 VLA强化学习阶段需在世界模型闭环学习 [13] - 技术路线选择取决于企业目标 智驾行业预计2028年收敛至稳定状态 [13]