自动驾驶技术发展 - 新能源汽车产业持续发展推动智能驾驶辅助技术广泛应用,基于纯视觉的自动驾驶方案因成本低、效率高备受关注 [1] - 行业领先者Waymo近期召回1200辆自动驾驶车辆,因算法识别道路障碍物存在潜在风险,凸显系统鲁棒性挑战 [3][4] - 视觉感知模型泛化能力不足是行业痛点,分布偏移(如天气变化)导致性能显著下降,制约实际应用 [5][6] 技术难点与解决方案 - 自动驾驶面临数据分布不均衡问题,特殊天气(大雪、沙尘暴)数据采集成本高且稀缺 [6][7] - 无训练可控生成(Training-free Controllable Image Generation)成为新兴范式,通过文本指令快速生成新场景图像,成本低效率高 [8][10] - DriveGEN方法通过两阶段策略(自注意力物体原型提取+原型引导生成)实现三维信息保留,代码已开源 [14][16][17] DriveGEN技术突破 - 在KITTI-C数据集测试中,DriveGEN在6种增广场景(雪、雨、雾等)下平均性能达37.98%,显著优于传统增广方法(如Color Jitter仅26.45%)[24] - 多目三维检测实验中,仅用500个场景生成的3000张雪天图像即提升模型性能,验证方法在nuScenes-C等真实场景的有效性 [26][27] - 消融实验证实物体原型提取和浅层特征对齐对保留小物体信息至关重要,如行人框下采样后仍能准确保留 [28][29] 行业应用前景 - 该方法可快速生成恶劣天气等罕见场景数据,解决传统机器学习依赖理想训练数据的局限性 [6][8] - 实验表明DriveGEN能提升单目/多目三维检测模型在噪声、模糊、天气变化等域外场景的鲁棒性,推动自动驾驶落地 [24][26] - 可视化结果展示生成图像保留原始三维标注信息,为感知模型提供高质量训练数据 [30][31]
CVPR 25 |全面提升视觉感知鲁棒性,生成模型快速赋能三维检测
机器之心·2025-05-23 12:17