自动驾驶VLA行业趋势 - 端到端技术之后,视觉语言动作模型成为学术界和工业界聚焦的核心方向,其提供类人思考能力并通过思维链形式展现车辆决策过程,以实现更可靠安全的自动驾驶能力[1] - 自动驾驶VLA目前可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 传统BEV感知、车道线、Occupancy等方向相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的方案,主流自动驾驶企业及智驾方案供应商均在发力自研[4] 自动驾驶VLA技术核心 - 技术涉及视觉感知、大语言模型、Action建模、大模型部署及数据集制作等核心内容[6] - 最前沿算法包括思维链、混合专家模型、检索增强生成及强化学习等[6] - 模块化VLA强调多阶段流程,语言模型从被动场景描述演变为主动规划组件[16] - 一体化VLA直接连接动作解码器,实现感知到控制的端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA趋势由解释转向长思维链推理、记忆和交互,新增推理模块并同步输出控制信号和自然语言解释[17] 行业应用与课程设计 - 课程由清华大学教研团队联合开展,包含自动驾驶VLA三个子领域前沿算法细致讲解及两个实战加一个课程大作业[6] - 课程大纲涵盖VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及大作业共六章[12][13][14][15][16][17][20] - 课程选取华科与小米提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等主流算法进行实战代码学习[16][19] - 课程进度安排自10月20日开始,预计两个半月结课,采用离线视频教学配合VIP群答疑及三次线上答疑模式[23]
传统的感知被嫌弃,VLA逐渐成为新秀...
自动驾驶之心·2025-10-11 07:32