自动驾驶中常提的VLM是个啥?与VLA有什么区别?
自动驾驶之心·2025-08-09 00:04
以下文章来源于智驾最前沿 ,作者陈云培 智驾最前沿 . 自动驾驶领域专业的技术、资讯分享全媒体平台。我们的slogan是:聚焦智能驾驶 ,紧盯行业前沿。 作者 | 陈云培 来源 | 智驾最前沿 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 自动驾驶车辆要在复杂多变的道路环境中安全行驶,不仅需要 "看见"前方的车辆、行人和路面标志,还需要"读懂"交通标识上的文字提示、施工告示牌和乘客 的语言指令。 之前 和大家讨论过 VLA , 了解到 视觉 -语言-动作模型 ,但在很多场景中,大家还会提到 VLM,看起来与VLA非常类似,那VLM又是个啥? 与VLA ( Vision-Language-Action,视觉-语言-动作) 又有什么区别? 什么是VLM? 如何让VLM高效工作? VLM可以将一帧原始的道路图像转换为计算机能处理的特征表示。这一过程通常由视觉编码器完成,主流方案包括卷积神经网络(CNN)和近年来兴起的视觉 Transformer(ViT)。它们会对图像进行 ...