多模态领域

搜索文档
MiniMax开源首个视觉RL统一框架,闫俊杰领衔!推理感知两手抓,性能横扫MEGA-Bench
量子位· 2025-05-27 20:31
核心观点 - MiniMax开源V-Triune框架,首次实现视觉语言模型(VLM)在单个后训练流程中联合学习视觉推理和感知任务[1] - 基于V-Triune开发的Orsta模型系列(7B至32B)在MEGA-Bench Core基准测试中性能提升显著,最高达+14.1%[3][30] - 采用三层组件设计和动态IoU奖励机制,解决传统强化学习无法兼顾多重任务的痛点[2][22] 技术架构 - **样本级数据格式化**:支持自定义奖励设置和验证器,包含reward_model/verifier/data_source三个字段[12][13][14] - **异步客户端-服务器架构**:解耦奖励计算与主训练循环,通过专用验证器路由请求[15][17] - **数据源级指标监控**:追踪奖励值/IoU/mAP/响应长度/反思率等15项指标,确保训练稳定性[19][20][21] 动态IoU奖励机制 - 分三阶段调整阈值:初始10%步骤宽松标准,10%-25%逐步收紧,剩余步骤固定高精度要求[22][25] - 使用MathVerifyVerifier处理推理任务,DetectionVerifier处理感知任务[24] 训练优化 - 冻结ViT参数防止梯度爆炸[27] - 过滤伪图像特殊词元确保特征对齐[27] - 构建随机化CoT提示池降低提示依赖性[27] - 解耦测试阶段与主训练循环管理内存压力[27] 模型性能 - Orsta-7B在MEGA-Bench Core得分38.31,较基础模型提升+3.2[30] - Orsta-32B-0321版本得分25.94,较基础模型提升+14.1[30] - 感知任务mAP指标显著提高,验证方法有效性[30] 公司战略 - MiniMax持续布局多模态领域,已推出S2V-01视频模型、MiniMax-VL-01视觉模型及T2A-01语言模型[32][34] - Speech-02语音模型刷新全球权威测试榜单,打破行业垄断[34] - 计划探索原生生成理解统一大模型架构[35]