多模态大语言模型对齐研究 - 现有先进模型缺乏与人类偏好的充分对齐 主要因为现有对齐研究集中于特定领域如减少幻觉问题 是否与人类偏好对齐可全面提升MLLM能力仍是未知数 [1] - 快手 中科院 南大合作从数据集 奖励模型和训练算法三个层面推动MLLM alignment发展 最终pipeline使不同基础模型在10个评估维度27个benchmark上取得一致性能增益 [1] - 基于提出的数据集和对齐算法对LLaVA-ov-7B模型微调后 conversational能力平均提升19.5% 安全性平均提升60% [1] MM-RLHF人类偏好数据 - 引入包含120k精细标注的偏好比较对数据集 含三个维度打分 排序 文本描述原因及平局标注 由50名标注人员和8名专家耗时两个月完成 在规模 样本多样性 标注粒度和质量等方面显著提升 [5] - 提出基于批评的奖励模型 首先生成批评再评分 相比传统标量奖励机制提供更好可解释性和更有信息量反馈 7B size模型在reward model benchmark优于现有公开72B-size MLLM [5] - 提出动态奖励缩放方法 通过根据奖励信号调整样本损失权重优化高质量比较对使用 提高数据使用效率 [5] 数据来源与标注 - 图像数据来源包括LLaVA-OV VLfeedback等共10M 视频数据主要来自SharedGPT-4-video 安全性数据来自VLGuard和自构造内容 [6] - 通过预定义类别均匀采样和knn聚类采样策略确保少数类样本足够和数据diversity 使用Qwen2-VL-72B等最先进MLLM生成响应 [6] - 标注包含有用性 真实性 伦理性三个维度 标注人员需提供打分依据 最终排名及依据 专家定期质量检查和互动评审保证标注质量 [7] MM-RLHF奖励模型创新 - 标准奖励模型通过预训练LLM用线性奖励头输出标量奖励值 难以充分利用人类注释丰富信息且透明性不足 [8] - 提出基于批评的训练框架 模型首先生成批评再基于批评打分 批评生成与打分部分共同作用确保更细致评价 [9] - 通过GPT-4o增强人工注释使其更详细流畅 提高批评质量 训练时批评生成与奖励头训练同时进行 测试时先生成批评再得最终得分 [9] 性能评估结果 - 模型框架简单且在多个基准测试表现与GPT-4o媲美甚至超越 在自定义基准测试中远超GPT-4o 验证其作为训练算法奖励信号有效性 [10] - 奖励头直接使用偏好数据集训练时ACC+稳定在50% 引入人工注释作为学习目标ACC+提升5% 通过GPT-4o扩展人工注释最终ACC+提高17% 使用人工批评时ACC和ACC+均接近90% [10] MM-DPO方法 - MM-DPO将查询下所有可能响应对纳入训练 每对不同排名响应视为有效比较对 捕捉更细粒度排序信息 [12] - 引入动态奖励缩放机制 根据奖励差距动态调整更新强度 优先利用高置信度样本对 采用MM-RLHF-Reward-7B模型计算奖励差距 [13] - MM-DPO在各类benchmark表现不错性能增益 对超参数不敏感 多数情况下能明显提升高质量pair利用效率 [14] 综合评估表现 - 评估涵盖10个维度27个基准 包括图表与文档理解 OCR 幻觉检测等 自构建多模态安全性基准MM-RLHF-SafeBench评估安全性与鲁棒性 [15] - 对齐后模型在会话基准平均提高超10% 不安全行为减少至少50% WildsVision任务胜率提高至少50% 在幻觉 数学推理等多领域显著提升 [17] - 不同模型在对齐过程中表现不同性能趋势 对超参数设置偏好各异 需根据具体模型定制化调整以获得最佳对齐效果 [18] 小规模MLLM局限性 - 小规模MLLM(参数少于7B)通过自我提升实现全面性能提升面临重大挑战 主要因模型容量限制和奖励信号质量局限性 [19] - 在具挑战性任务如多项选择题或科学推理任务 小模型即使大量采样也难以生成正确答案 现有多模态奖励模型在更广泛领域无法提供有效奖励信号 [20] 未来研究方向 - 提出MM-RLHF高质量细粒度数据集 旨在全面提升多个维度性能 在几乎所有评估基准观察到显著持续提升 [21] - 未来工作将重点利用数据集丰富注释粒度与先进优化技术 结合高分辨率数据解决特定基准局限性 使用半自动化策略高效扩展数据集 [21]
多模态大模型对齐新范式,10个评估维度全面提升,快手&中科院&南大打破瓶颈
量子位·2025-02-26 11:51