文章核心观点 - 理想汽车发布MindGPT-4ov技术报告,提出一套旨在解决通用多模态大模型向垂直领域迁移时面临的核心矛盾(如灾难性遗忘、缺乏系统方法论)的全链路后训练工程方案 [1] 当前多模态模型训练的关键挑战 - 灾难性遗忘与缺乏方法论:将通用多模态大模型迁移至垂直应用时,注入领域知识会导致原有通用能力退化,且现有方法缺乏涵盖数据、训练到部署的全链路方案 [1] - 资源分配粗放:传统数据合成方法对所有数据均等处理,忽视信息密度差异,导致高价值数据挖掘不足,低价值数据浪费算力 [2] - 奖励机制单一化:强化学习阶段传统的Pass@1机制使模型为最大化奖励而收敛到少数安全回复模式,牺牲输出多样性与探索性,削弱泛化能力 [2] - 单模态虚假相关:模型幻觉常源于过度依赖语言模型先验而非视觉证据,例如在移除图片输入后仍能编造视觉细节,构成事实性错误风险 [2] MindGPT-4ov后训练范式的核心模块 - 数据构建:基于信息密度评分进行数据合成与双维标签系统 [3] - 监督微调:采用协同课程监督微调 [3] - 强化学习:采用混合奖励的多阶段强化学习 [3] - 基础设施:采用5D并行训练(在3D并行基础上引入序列并行和专家并行),并优化推理过程中的模型适配、流式推理和高并发场景 [3] 数据构建:信息密度评分与双维标签 - 信息密度评分:利用MLLM对图像从主体多样性、场景空间关系、OCR文本丰富度、世界知识相关性四个维度进行量化评分 [3] - 动态合成策略:依据IDS分数动态调整生成问答对的数量,高密度图像生成更多QA,低密度图像生成较少QA,以实现资源高效配置 [3] - 双维标签系统:构建领域+能力的树状标签体系,确保合成数据既覆盖垂直领域知识,又兼顾通用视觉能力(如计数、推理) [4] 监督微调:三阶段协同课程学习 - 阶段一:跨域知识学习:重点注入垂直领域知识,建立解决特定领域问题的基础 [5] - 阶段二:能力修复:针对第一阶段可能导致的通用能力下降,使用通用数据集进行针对性恢复训练 [5] - 阶段三:偏好对齐:使用高质量偏好数据,优化响应格式、减少幻觉,并处理长上下文逻辑 [5] 强化学习:混合奖励机制 - Pass@k奖励:在模型生成的k个回答中,只要有正确答案即计算期望奖励,鼓励探索不同推理路径,而非陷入单一模式 [6] - 多样性奖励:计算候选回答间的语义距离,语义过于相似的正确回答会受到惩罚,语义差异大且正确的回答获得更高奖励 [6] - 长度奖励:引入软性冗余约束,回答长度超过设定阈值(即使内容正确)会给予负向惩罚,强制输出简洁响应 [6] - 对抗性幻觉数据:构造移除图像的文本样本,若模型在无图情况下仍生成描述性细节,则视为知识泄漏并予以惩罚,强制基于视觉证据推理 [6] 训练与部署流程及效果 - 标签与数据构建:专家定义一级标签,利用MLLM扩展生成二级及三级细粒度Topic,形成知识树;对图像进行粗粒度(Top-3)和细粒度(Top-5)Topic匹配,结合IDS分数生成QA对,并通过多模型投票过滤低质数据 [7] - SFT训练:执行三阶段课程学习,期间穿插数据准入与拒绝采样机制,动态调整数据配比 [7] - 强化学习阶段:阶段一在线RL使用GSPO算法,结合Pass@k和多样性奖励,重点提升多模态逻辑推理和STEM能力;阶段二离线RL使用DPO算法,利用人类偏好数据和对抗性幻觉数据,进行领域能力对齐和幻觉抑制 [7] - 推理部署优化:采用分块预填充和视觉编码缓存策略,在用户输入阶段并行处理图像,以降低首字延迟 [7] - 垂直领域知识掌握:在涉及理想汽车特定车型的问答中,MindGPT-4ov能准确识别车型设计特征及定位,而基座模型(Qwen3-VL)出现知识缺失或幻觉 [7] - 响应简洁性:在MathVista等基准测试中,MindGPT-4ov的平均响应长度显著短于对比模型,同时保持了更高的准确率(83.3% vs 80.1%),验证了长度奖励机制的有效性 [8]
理想MindGPT-4o-Vision技术报告压缩版