Workflow
3B Image Captioning小钢炮重磅来袭,性能比肩Qwen2.5-VL-72B
机器之心·2025-10-28 12:31

核心技术突破 - 提出名为CapRL的创新强化学习框架,首次成功将DeepSeek-R1的强化学习方法应用于图像描述生成这类开放视觉任务[2] - 创新性地以“实用性”重新定义了图像描述生成的奖励函数,解决了为高度主观任务设计客观可验证奖励的重大挑战[6] - 训练得到的CapRL-3B模型在描述生成水平上达到了与Qwen2.5-VL-72B模型相当的水平,是图像描述生成领域的一大进展[2] 技术方案细节 - 采用高效的两阶段解耦式训练框架,首先由大型视觉语言模型生成图像描述,然后让纯语言模型基于该描述回答视觉多选题,并将回答准确率作为客观奖励信号[10][13] - 新的奖励设计思路认为,高质量的描述应能让纯语言模型正确回答视觉问题,从而避免了使用LVLM-as-a-Judge带来的奖励欺骗问题[9][10] - 该方法显著提升了生成描述的准确性、细节覆盖度,并减少了幻觉现象,例如在图表描述任务中能更准确地提取和呈现数据[10] 性能评估结果 - 使用CapRL-3B标注图片产生的CapRL-5M数据集对LVLM进行预训练,在全部12项基准测试中均取得显著性能提升[12] - 在Prism框架下的评估显示,CapRL-3B的性能与72B模型相当,并在平均水平上超越基线模型8.4%[12] - 与其他预训练数据集相比,CapRL-1M在全部三个设置中均显著优于其他数据集,且当数据规模扩展至5M时,模型性能进一步得到提升[14] 行业影响与应用 - 该技术为GRPO策略应用于开放任务提供了重要思路,解决了传统监督微调方法依赖大量人工标注数据、成本高昂且泛化能力不足的问题[2][7] - 图像描述生成是视觉Transformer训练以及大型视觉语言模型预训练的重要训练语料,该技术的突破对多模态AI发展具有重要意义[7] - 目前Huggingface上的模型和数据集总下载量已突破6k,并且正在迭代更强的基座模型以及升级训练方案[2]