英伟达用千万Clip搞定了反事实推理VLA!安全指标提升了20%......
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Zhenghao等 编辑 | 自动驾驶之心 近几个月,反事实推理的工作多了起来。 现有的思维链在推理中无法纠错,模型会沿着错误的逻辑推理出一个看似合理的结果。 在大模型领域,也有一些工作在尝试解决这个问题。业内像理想的ReflectDrive通过离散扩散的反思机制实现安全轨迹生成。今天自动驾驶之心为大家分享的英 伟达&UCLA&斯坦福的工作Counterfactual VLA - 具有自适应推理功能的自反思VLA模型,参考了很多英伟达前作Alpamayo-R1的设计。 CF-VLA这篇工作的重 点在数据pipeline,云端数据闭环很有参考价值,教师模型用的Qwen2.5-VL-72B-Instruct。 训练的数据量总结如下: 两个关键词:自适应推理、自反思。 自适应推理是在解决不同场景的推理开销问题,复杂场景长推理,简单场景短推理或者不推理。自反思能够让模型在执行 动作前对规划动作进行推理和修正。 这两点都是当前自驾VLA模型研究的热点,也 ...