模型核心性能 - 2B参数模型在多个基准测试中位列4B参数以下开源模型第一,OpenCompass平均得分70.31,超越Qwen2.5-VL-3B(65.36)和InternVL3.5-2B(66.64)等竞品 [1][27] - 8B参数模型在OpenCompass取得开源同量级模型最高分数75.07,并在MMStar(70.73分)、OCRBench(91.30分)等细粒度任务中领先 [27][28] - 思维增强版本SAIL-VL2-8B-Thinking在复杂推理任务中平均得分54.4,超越所有开源模型,仅次于GPT-4o-latest(54.8) [30][31] 技术创新与架构 - 引入稀疏混合专家(MoE)架构,31.1B大模型每次推理仅激活3B参数,并通过负载均衡损失将专家激活熵提升20%,优化计算效率 [7][9] - 视觉编码器SAIL-ViT采用三阶段训练(热身适应、细粒度对齐、世界知识注入),使视觉-语言特征空间的平均最近邻距离从1.42降至1.15,对齐效果显著提升 [8] - 突破传统ViT固定分辨率限制,通过"2D RoPE插值"技术支持最高1792×1792任意分辨率输入,在RefCOCO视觉定位任务中平均精度达57.82,远超固定分辨率版本的53.28 [10] 数据与训练策略 - 设计全自动数据pipeline,通过质量筛选(如双维度评分过滤低质量样本)和类型扩展(如合成VQA数据)构建高质量多模态语料库,最终使用250M通用caption和1.69M图表caption数据 [11][12][19] - 采用渐进式训练框架,分三阶段视觉预训练和两阶段多模态预训练,累计使用121B tokens数据,逐步激活模型从基础感知到复杂推理的多维度能力 [14][15] - 后训练阶段通过五阶段递进策略(如LongCoT SFT、可验证奖励RL等)强化模型能力,并利用Stream Packing技术将训练速度加快50%,QA性能提升0.7% [23][24][26] 行业竞争力表现 - 在106个数据集的综合评估中,SAIL-VL2在通用多模态理解、数学推理、多图像与视频理解等任务均实现领先,尤其在MMMU、MathVista等复杂推理基准超越同规模模型 [2][25][27] - MoE架构模型SAIL-VL2-A3B-Thinking以3B激活参数在推理任务中获得53.6分,超越闭源模型Gemini-2.0-Flash(50.6),展现出极高的效率性能比 [30][31] - 模型全面开源代码与权重,为行业提供可扩展的多模态基础模型新范式,强调"小模型强能力"的技术路径 [5][32]
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
量子位·2025-10-12 15:30