核心观点 - 提出UV-CoT框架,实现无监督视觉思维链推理,动态聚焦关键区域并提升细粒度推理能力[3][4] - 通过自动化偏好数据生成与评估流程替代人工标注,降低高昂成本并增强泛化能力[7][8] - 采用改进的sDPO算法量化偏好分数差异,结合迭代学习策略优化模型输出分布[16][17] 方法设计 - 数据生成机制:利用目标模型和评估模型生成多样化推理响应,通过偏好评分构建数据集[11] - 响应生成:每个时间步t随机生成n个响应(含边界框和推理结果)[13] - 评估标准:综合当前区域得分及对后续回答的影响(公式:)[11] - 偏好优化:从响应中随机选择k个偏好对构建数据集,保留最高评分链用于后续推理[14] - 迭代学习:将数据分为m个子集动态更新,缓解模型生成分布与训练数据的差异[17] 性能表现 - 基准测试:在六大基准上平均得分0.286(UV-CoT)和0.312(UV-CoT*),显著超越有监督模型Visual-CoT-7B(0.261)[20][22] - 具体任务:在Visual7w上达0.432,高于Visual-CoT-7B的0.397[22] - 复杂任务:GPT4V-hard OCR任务中得分0.677,对比Visual-CoT-7B的0.593[22] - 边界框质量:自评估模式下性能仍超LLaVA-1.5-7B 4.8%,接近OmniLMM-12B(差距0.2%)[23] - 辅助推理:应用UV-CoT边界框使OmniLMM-12B和LLaVA-1.5-7B性能分别提升7.3%和4.7%[23] 应用价值 - 为多模态推理提供高效可扩展的新思路,减少对人工标注的依赖[25] - 开源资源包括论文、代码及模型(Hugging Face仓库),促进后续研究[10]
ICCV 2025|UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链
机器之心·2025-07-28 12:24