偏好优化 - 财报，业绩电话会，研报，新闻 - Reportify

偏好优化

搜索文档

ICCV 2025｜UV-CoT：无监督视觉推理新突破，偏好优化重塑图像级思维链

机器之心· 2025-07-28 12:24

核心观点 - 提出UV-CoT框架，实现无监督视觉思维链推理，动态聚焦关键区域并提升细粒度推理能力[3][4] - 通过自动化偏好数据生成与评估流程替代人工标注，降低高昂成本并增强泛化能力[7][8] - 采用改进的sDPO算法量化偏好分数差异，结合迭代学习策略优化模型输出分布[16][17] 方法设计 - **数据生成机制**：利用目标模型和评估模型生成多样化推理响应，通过偏好评分构建数据集[11] - 响应生成：每个时间步t随机生成n个响应（含边界框和推理结果）[13] - 评估标准：综合当前区域得分及对后续回答的影响（公式：$s^i = s_{cur}^i + \gamma s_{nxt}^i$）[11] - **偏好优化**：从响应中随机选择k个偏好对构建数据集，保留最高评分链用于后续推理[14] - **迭代学习**：将数据分为m个子集动态更新，缓解模型生成分布与训练数据的差异[17] 性能表现 - **基准测试**：在六大基准上平均得分0.286（UV-CoT）和0.312（UV-CoT*），显著超越有监督模型Visual-CoT-7B（0.261）[20][22] - 具体任务：在Visual7w上达0.432，高于Visual-CoT-7B的0.397[22] - 复杂任务：GPT4V-hard OCR任务中得分0.677，对比Visual-CoT-7B的0.593[22] - **边界框质量**：自评估模式下性能仍超LLaVA-1.5-7B 4.8%，接近OmniLMM-12B（差距0.2%）[23] - 辅助推理：应用UV-CoT边界框使OmniLMM-12B和LLaVA-1.5-7B性能分别提升7.3%和4.7%[23] 应用价值 - 为多模态推理提供高效可扩展的新思路，减少对人工标注的依赖[25] - 开源资源包括论文、代码及模型（Hugging Face仓库），促进后续研究[10]

无监督视觉思维链推理

思维链推理

无监督视觉思维链推理

思维链推理