视觉-语言大模型(VLM)

搜索文档
面向量产VLA方案!FastDriveVLA:即插即用剪枝模块,推理加速近4倍(北大&小鹏)
自动驾驶之心· 2025-08-05 07:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 今天自动驾驶之心为大家分享 北京大学,小鹏汽车 最新的工作! FastDriveVLA:对抗性视觉token剪枝,50%压缩率下性能保持 97.3%! 如果您有相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与 技术交流群加入 ,也欢迎添加小助理微信AIDriver005 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文链接:https://www.arxiv.org/pdf/2507.23318 不过,VLM/VLA 模型通常将输入图像编码为大量视觉,会带来高昂的计算开销与推理延迟,在车载芯片上实际部署时有着较高的时延压力。为缓解这一问题,现 有研究主要从两个方向进行视觉 token 剪枝: 1. 注意力机制导向方法 依据文本 token 与视觉 token 之间的注意力权重进行筛选。但是因为驾驶任务中的文本指令往往固定且简短,提供的监督信息有限,导致剪枝效果不佳。 2. 相似度导向方法 论文作者 | Jiajun Cao等 编辑 | 自动驾驶之心 写在前面 && 笔者理解 近年来,端到端自动 ...