Workflow
Vision-Language Model
icon
搜索文档
无需标注图像,VLM也能「自我进化」!RL自我进化框架VisPlay突破视觉推理难题
机器之心· 2025-12-01 12:06
文章核心观点 - VisPlay框架首次提出自进化强化学习方案,使视觉语言模型仅依赖海量未标注图像数据即可自我演化和提升能力,突破了传统方法对高质量人工标注数据的依赖 [2][3] - 该框架将基础模型分解为“提问者”和“推理者”角色,通过迭代的自我进化机制协同进化,结合GRPO算法及多样性/难度奖励,平衡问题复杂度与答案质量 [3][10] - 实验证明该框架在主流模型上实现了持续性能提升,尤其在视觉推理、组合泛化和幻觉减少方面效果显著,为可扩展、低成本的多模态智能进化提供了新路径 [5][19] VLM推理能力的数据困境 - 主流提升方式如指令微调或强化学习均面临核心难题:高度依赖高质量标注数据或针对具体任务设计的复杂规则,成本高昂且难以规模化 [7] - 随着模型规模扩大,人工标注的成本和速度已成为进一步提升能力的主要瓶颈,促使研究者探索“自进化”思路以实现自主能力迭代 [7] VisPlay自进化框架设计 - 核心理念是自我进化,从基础预训练VLM出发,分解为“提问者”和“推理者”两大相互作用角色 [10] - “提问者”根据输入图片生成具挑战性但可回答的视觉问题,通过难度奖励和多样性奖励机制指导自我进化质量,鼓励复杂推理并防止问题重复 [11][12] - “推理者”基于图片和问题生成伪标注答案,并以回答准确性作为训练信号 [13] 实验结果与能力突破 - 在八个主流基准数据集上评估,涵盖通用视觉理解、跨模态推理、视觉数学推理及幻觉检测 [16] - Qwen2.5-VL-3B模型经过三轮迭代后,在MMMU上的准确率从基准的19.95%提升至37.11%,在HallusionBench上从32.81%大幅提升至90.54% [17] - Qwen2.5-VL-7B模型经过三轮迭代后,在MMMU上的准确率从基准的23.10%提升至38.27%,在HallusionBench上从66.88%提升至92.32% [17] - 框架展现出强大的组合泛化能力,并在训练中未见的复杂推理组合上表现鲁棒,同时通过高质量问答对有效抑制模型“幻觉”现象 [18]
自动驾驶一周论文精选!端到端、VLA、感知、决策等~
自动驾驶之心· 2025-08-20 11:28
自动驾驶技术研究进展 核心观点 - 近期自动驾驶领域涌现大量创新研究成果 涉及端到端驾驶 感知 VLM Benchmark等多个方向 [2] - 自动驾驶之心知识星球已构建产业 学术 求职 问答的闭环生态 提供40+技术路线梳理和数十位行业专家资源 [4] 端到端自动驾驶 - 中科大GMF-Drive提出门控Mamba融合与空间感知BEV表征的端到端方案 [8] - 清华与比亚迪合作开发ME³-BEV框架 结合Mamba架构增强BEV感知的深度强化学习 [8] - 博世联合清华等提出IRL-VLA方案 通过免仿真器强化学习训练VLA驾驶模型 获CVPR亚军 [8] 感知与VLM技术 - VISTA模型实现基于视觉语言模型的驾驶员注意力时空预测及自然语言解释 [7] - 清华团队开发VLM-3D框架 实现开放世界端到端视觉语言模型驱动的3D感知 [10] - 慕尼黑工业大学Dream-to-Recon方案利用扩散-深度蒸馏实现单目图像三维重建 [10] 决策规控领域 - 安全关键型自动驾驶BEV感知技术获系统性综述 [10] - 清华CBDES MoE架构首创模块级动态路由 实现功能解耦专家混合 [10] - 加拿大温莎大学RMT-PPAD模型通过Transformer实现实时多任务全景感知 [10] 仿真测试与数据集 - 北大ReconDreamer-RL框架结合扩散场景重建增强强化学习 [11] - STRIDE-QA数据集提供城市驾驶场景时空推理的大规模视觉问答资源 [12]
基于开源Qwen2.5-VL实现自动驾驶VLM微调
自动驾驶之心· 2025-08-09 00:04
自动驾驶技术框架与模型 - LLaMA Factory是一款开源低代码大模型微调框架,集成业界广泛使用的微调技术,GitHub星标超过4万,成为开源社区最受欢迎的微调框架之一 [3] - 项目基于Qwen2.5-VL-7B-Instruct模型,通过自然语言对话触发自动驾驶辅助功能,并以特定格式返回结果 [3] - Qwen2.5-VL是视觉-语言系列旗舰模型,支持视觉识别、物体定位、文档解析和长视频理解,旗舰型号Qwen2.5-VL-72B性能与GPT-4o和Claude 3.5 Sonnet相当 [4] 数据集与训练 - 使用CoVLA数据集,包含10,000个真实驾驶场景和超过80小时视频,通过自动数据处理生成精确驾驶轨迹和自然语言描述 [5] - 实际训练仅使用400张图片和对应QA问答对,数据量较小 [7] - 微调过程通过Web UI配置参数,训练日志显示loss进度,微调后模型保存在指定路径 [15] 技术应用与效果 - 微调后的模型在回答自动驾驶相关问题时,比原生Qwen2.5-VL-7B-Instruct模型更具参考价值,原始模型存在答非所问的情况 [19] - 测试显示模型能识别天气、道路类型等场景信息,并给出置信度(如多雨天气置信度0.978,宽阔道路置信度0.659) [10] - 模型可评估自动驾驶风险,如识别交通信号灯、其他车辆(置信度0.656)和行人(概率43.064%) [10] 社区与资源 - 自动驾驶之心知识星球拥有近4000人社区,300+自动驾驶公司与科研机构参与,覆盖30+技术栈 [22] - 提供端到端自动驾驶、大模型、BEV感知、轨迹预测等多方向专业课程 [23]
上交&卡尔动力FastDrive!结构化标签实现端到端大模型更快更强~
自动驾驶之心· 2025-06-23 19:34
端到端自动驾驶研究进展 - 将类人推理能力融入端到端自动驾驶系统成为前沿领域 视觉语言模型(VLM)方法受到工业界和学术界广泛关注[1] - 现有VLM训练范式依赖自由格式文本标注 存在同义表达复杂性和信息冗余问题 增加模型学习难度和计算开销[1] - 基准模型通常依赖超70亿参数的大语言模型 导致高昂计算成本、内存消耗和推理延迟[3] NuScenes-S结构化数据集 - 数据集包含102K问答对 其中84K用于训练 18K用于测试[21] - 场景描述结构化要素包括:天气(5类)、交通状况(3类)、驾驶区域(7类)、交通灯(3类)、交通标志(8类)、道路状况(4类)、车道线(8类)、时间(2类)[7][8] - 感知预测任务包含:相机视角(6类)、2D边界框坐标、未来状态(7类)[12] - 决策任务分为横向移动(5类)和纵向移动(4类)[13] - 构建过程采用GPT预标注+人工细化的混合方式 通过规则提取关键目标[9] FastDrive算法模型 - 采用0.9B参数紧凑设计 相比传统70亿+参数模型大幅降低计算资源需求[4] - 网络架构遵循"ViT-Adapter-LLM"范式 包含视觉编码器(ViT主干)和LLM代理(Qwen2.5)[17][19] - 引入TokenPacker模块减少标记数量 提升推理速度[18] - 实现思维链式推理流程 完成场景理解→感知→预测→决策的全流程[19] 实验性能表现 - 语言指标:FastDrive256版本BLEU-4达70.36 ROUGE_L达87.24 显著优于DriveLM基准[22] - 场景理解准确率:天气识别99.95% 交通标志识别87.64% 全面超越对比模型[22] - 预测决策任务:在车道线状态预测(76.49%)和纵向控制决策(82.06%)等关键指标领先[22][25] - 消融实验证实结构化标注使决策准确率提升12.8%[24][25] 技术社区生态 - 自动驾驶技术社区覆盖30+技术方向 包括BEV感知、多传感器融合、轨迹预测等前沿领域[27] - 专业课程体系包含端到端自动驾驶、大模型部署、NeRF等20+细分方向[29] - 行业参与度:近300家企业和科研机构加入 形成4000人规模交流社区[27]