Workflow
偏好优化
icon
搜索文档
ICCV 2025|UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链
机器之心· 2025-07-28 12:24
核心观点 - 提出UV-CoT框架,实现无监督视觉思维链推理,动态聚焦关键区域并提升细粒度推理能力[3][4] - 通过自动化偏好数据生成与评估流程替代人工标注,降低高昂成本并增强泛化能力[7][8] - 采用改进的sDPO算法量化偏好分数差异,结合迭代学习策略优化模型输出分布[16][17] 方法设计 - **数据生成机制**:利用目标模型和评估模型生成多样化推理响应,通过偏好评分构建数据集[11] - 响应生成:每个时间步t随机生成n个响应(含边界框和推理结果)[13] - 评估标准:综合当前区域得分及对后续回答的影响(公式:$s^i = s_{cur}^i + \gamma s_{nxt}^i$)[11] - **偏好优化**:从响应中随机选择k个偏好对构建数据集,保留最高评分链用于后续推理[14] - **迭代学习**:将数据分为m个子集动态更新,缓解模型生成分布与训练数据的差异[17] 性能表现 - **基准测试**:在六大基准上平均得分0.286(UV-CoT)和0.312(UV-CoT*),显著超越有监督模型Visual-CoT-7B(0.261)[20][22] - 具体任务:在Visual7w上达0.432,高于Visual-CoT-7B的0.397[22] - 复杂任务:GPT4V-hard OCR任务中得分0.677,对比Visual-CoT-7B的0.593[22] - **边界框质量**:自评估模式下性能仍超LLaVA-1.5-7B 4.8%,接近OmniLMM-12B(差距0.2%)[23] - 辅助推理:应用UV-CoT边界框使OmniLMM-12B和LLaVA-1.5-7B性能分别提升7.3%和4.7%[23] 应用价值 - 为多模态推理提供高效可扩展的新思路,减少对人工标注的依赖[25] - 开源资源包括论文、代码及模型(Hugging Face仓库),促进后续研究[10]