多模态大语言模型（MLLM） - 财报，业绩电话会，研报，新闻

多模态大语言模型（MLLM）

搜索文档

量子位· 2025-03-23 19:12

多模态大语言模型对齐算法应用场景 - 减少幻觉现象是MLLM对齐算法的核心应用场景例如Fact-RLHF使用10K个人工标注样本训练奖励模型并引入token级KL惩罚和事实校准机制[14] DPO优化方法如DDPO通过提高更正数据权重来增强效果[15] HA-DPO利用GPT-4验证幻觉并加入辅助因果语言建模损失[16] mDPO引入视觉损失函数解决视觉信息忽视问题[17] - 提升模型综合能力包括对话、推理和安全性 Silkie通过GPT-4V评估响应生成偏好数据[18] CLIP-DPO利用CLIP分数标注数据同时提升幻觉减缓和零样本分类[18] SIMA通过自我评估响应构建偏好对提升多图像任务表现[19] MM-RLHF通过多样性数据进一步提升对齐效果[20] - 扩展应用覆盖医学、数学和安全领域 3D-CT-GPT++优化医学影像分析达到临床级准确性[31] MAVIS改进视觉数学问题解决框架[31] AdPO和VLGuard通过优化训练数据提高模型对抗攻击鲁棒性[31] INTERACTIVECOT和EMMOE通过动态推理优化嵌入式智能表现[31] 多模态对齐数据集构建 - 引入外部知识的数据集依赖人工注释和闭源模型 LLaVA-RLHF通过人工选择正负响应收集10k样本[40] RLHF-V通过人工修正幻觉响应收集1.4k样本[40] LRV-Instruction通过GPT-4生成400k视觉指令覆盖16个任务[40] - 自我标注数据集包括文本和图像模态 SQuBa通过微调模型生成负样本进行DPO对比[42] Image DPO通过对图像高斯模糊或像素化构建偏好对[43] AdPO通过原始/对抗图像差异构建混合模态偏好数据[44] - 数据质量与规模存在平衡挑战自我标注方法受限于MLLM性能导致质量较低和分布偏移[45] 自动化数据增强技术有望提升未来数据多样性和可信度[45] 对齐算法评估基准 - 通用知识评估依赖高质量人工数据集 MME-RealWorld包含13K图像和29K问答对[49] MMMU包含11.5K学术来源问题[49] MMStar通过减少数据泄漏增强可靠性[49] MMBench采用双语评估与CircularEval框架[49] - 幻觉评估系统化分类对象和关联偏差 Object HalBench识别对象幻觉[51] VideoHallucer区分内在和外在幻觉[51] VALOR-Eval分析关联偏差[51] POPE采用基于投票查询[51] HaELM使用LLM驱动评分[51] - 安全性评估涵盖对抗攻击和红队测试 AdvDiffVLM采用扩散对抗攻击[54] RTVLM红队框架提升抗干扰能力[54] MultiTrust通过多维度统一可信度评估[55] VLLM-safety-bench测试OOD泛化[55] 未来发展方向与挑战 - 数据挑战包括质量有限和覆盖不足多模态数据注释复杂度高于文本[68] 现有数据集缺乏光学字符识别和数学任务覆盖[68] 目前无完全人工注释多模态数据集样本量超过200,000个[69] - 视觉信息利用存在效率与成本权衡破损图像作为负样本可提高鲁棒性但缺乏质量度量[73] 基于破损图像生成新问答增加计算开销[75] CLIP相似度度量受模型偏见影响[76] - MLLM推理增强借鉴LLM经验数据规模从OpenMathInstruct小模型重采样发展到Qwen-2.5-MATH百万样本规模[87] 优化框架采用在线强化学习缓解分布偏移[88] 多阶段协作优化成为主流如Llama 3六轮DPO迭代[88] - 智能体发展需解决多模态协作与安全多智能体协作缺乏成熟解决方案[95] 开放环境鲁棒性需对抗性测试验证[95] 复杂组件增加安全风险需保护机制[95]