InternVL 3.5

搜索文档
InternVL 3.5来了!上海AI Lab最新开源:硬刚 GPT-5 还把效率玩明白
自动驾驶之心· 2025-08-28 07:33
模型发布与性能 - 上海AI Lab推出开源多模态模型InternVL 3.5系列,在通用性、推理能力和推理效率方面显著提升 [2] - 通过级联强化学习(Cascade RL)框架实现更优性能,离线RL阶段确保稳定收敛,在线RL阶段进行精细对齐 [2] - 提出视觉分辨率路由器(ViR)动态调整视觉标记分辨率,结合解耦视觉-语言部署(DvD)方法优化效率 [2] - 在多个基准测试中表现领先,显著缩小与GPT-5等顶级商业模型的性能差距 [2] 模型架构与参数规模 - 模型架构包括动态高分辨率文本分词器、InternViT视觉编码器和视觉-语言连接器 [5] - 采用两阶段训练范式:大规模预训练阶段和多阶段后训练阶段 [5] - 提供多种参数规模版本,从1.1B到241B,包括密集模型和MoE模型 [3] - 最大模型InternVL3.5-241B-A28B总参数量达240.7B,其中视觉参数5.5B,语言参数235.1B [3] 训练方法与数据 - 预训练阶段使用1.16亿个样本,对应约2500亿个标记,纯文本与多模态数据比例约为1:2.5 [7] - 后训练采用三阶段策略:监督微调(SFT)、级联强化学习(Cascade RL)和视觉一致性学习(ViCO) [9] - SFT阶段使用高质量对话数据,包含来自InternVL3的指令遵循数据和"思考"模式下的多模态推理数据 [9] - 测试时扩展(TTS)方法包括深度思考(逐步推理)和并行思考(Best-of-N策略) [11] 多模态推理与数学能力 - 在MMMU基准测试中,InternVL3.5-241B-A28B达到82.7分,显著超越前代产品 [15] - MathVista基准测试中,InternVL3.5-241B-A28B获得63.9分,较InternVL3-1B的18.8分有大幅提升 [15] - 在MathVerse视觉only测试中,InternVL3.5-241B-A28B达到68.5分,相比InternVL3-1B的18.7分进步显著 [15] - 使用并行思考技术后,多个模型的数学推理能力进一步提升 [15] OCR与文档理解 - 在AI2D测试中,InternVL3.5-241B-A28B达到87.3分(无mask)和95.0分(有mask) [17] - DocVQA测试中,InternVL3.5-241B-A28B获得94.9分,优于GPT-4o的92.8分 [17] - OCRBench测试中,InternVL3.5-241B-A28B达到907分,表现优异 [17] - 在TextVQA测试中取得84.5分,超越GPT-4o的77.4分 [17] 多模态理解与幻觉评测 - MMBench V1.1英文测试中,InternVL3.5-241B-A28B获得87.4分 [21] - MMVet测试中达到81.2分,优于GPT-4o的69.1分 [21] - HallusionBench测试中获得77.9分,表现突出 [21] - 综合多模态理解能力在多个基准测试中领先 [21] 具身智能与GUI代理 - 在VSI-Bench测试中,InternVL3.5-241B-A28B达到69.5分,显著优于GPT-4o的34.0分 [29] - GUI代理任务中,ScreenSpot-v2测试获得92.9分,OSWorld-G测试达到53.2分 [27] - WindowsAgentArena测试中取得18.0分,WebArena-Lite-v2测试获得11.7分 [27] - 在具身智能体任务中表现优异,多个测试分数领先 [29] 多语言与视频理解 - 多语言MMBench测试中,英文达到87.6分,中文86.4分,表现均衡 [24] - 视频理解任务中,Video-MME测试达到72.9分(无字幕)和76.0分(有字幕) [25] - MVBench测试获得76.5分,MLVU测试达到78.2分 [25] - 在多语言和多模态视频理解方面表现全面 [24][25]