自动驾驶中常提的VLA是个啥?
自动驾驶之心·2025-06-18 21:37
以下文章来源于智驾最前沿 ,作者陈云培 智驾最前沿 . 自动驾驶领域专业的技术、资讯分享全媒体平台。我们的slogan是:聚焦智能驾驶 ,紧盯行业前沿。 VLA 全称为" Vision-Language-Action ",即视觉 - 语言 - 动作模型,其核心思想是将视觉感知、语 言理解与动作决策端到端融合,在一个统一的大模型中完成从环境观察到控制指令输出的全过程。与传统 自动驾驶系统中感知、规划、控制模块化分工的思路不同, VLA 模型通过大规模数据驱动,实现了"图像 输入、指令输出"的闭环映射,有望大幅提高系统的泛化能力与场景适应性。 VLA 最早由 GoogleDeepMind 于 2023 年在机器人领域提出,旨在解决"视觉 - 语言 - 动作"三者协同 的智能体控制问题。 DeepMind 的首个 VLA 模型通过将视觉编码器与语言编码器与动作解码器结合,实 现了从摄像头图像和文本指令到物理动作的直接映射。这一技术不仅在机器人操作上取得了突破,也为智 能驾驶场景引入了全新的端到端思路。 在自动驾驶领域, 感知技术 通常由雷达、激光雷达、摄像头等多种传感器负责感知,感知结果经过目标 检测、语义分割、轨 ...