Workflow
概念均衡
icon
搜索文档
LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元
机器之心· 2025-10-13 14:37
LLaVA系列技术演进 - LLaVA于2023年提出,通过低成本对齐高效连接开源视觉编码器与大语言模型,实现了“看图-理解-对话”的多模态能力普及,显著缩小了与顶级闭源模型的差距,是开源多模态范式的重要里程碑[2] - LLaVA-1.5通过更大更干净的数据与高分辨率输入强化理解能力,LLaVA-NeXT进一步拓展了OCR、数理与多场景任务处理能力[5] - 系列后续分支发展为LLaVA-NeXT-Video处理时序视频和多帧推理,LLaVA-NeXT-Interleave支持交替多图文与跨图联合推理,最终在LLaVA-OneVision汇聚为统一接口,覆盖图像、文档、图表、多图、视频等多种模态[5] LLaVA-OneVision-1.5框架创新 - 引入RICE-ViT视觉主干支持原生分辨率与区域级细粒度语义建模,强化图表、文档、结构化场景的理解能力[7] - 延续紧凑的三阶段训练范式,避免冗长的课程学习,构建并强调“质量-覆盖-均衡”的85M预训练集与22M指令集[7] - 实现全链条透明开放,包括数据、训练与打包工具链、配置脚本、日志与可复现评测命令等细节,确保社区低成本复现与可验证拓展[7] 数据构建策略 - 预训练数据集规模达85M,融合COYO-700M、Obelics、DataComp-1B、LAION-CN、ImageNet-21K等8大异构来源,形成约2000万中文与6500万英文图文对[12] - 采用特征驱动的“概念均衡”策略,利用MetaCLIP编码器将图像与50万规模概念词嵌入共享向量空间,通过逆频加权重采样平坦化长尾分布[12] - 指令微调数据集规模22M,覆盖Caption、Chart & Table、Code & Math、Domain-specific等八大类别,通过多源聚合、格式统一、指令重写等流程保持类别与难度分布均衡[13] 训练优化技术 - 视觉编码器采用自研RICE-ViT,在4.5亿图像与24亿候选区域上训练,引入Region Cluster Discrimination机制显式建模局部实体与上下文关系[17] - 采用三阶段学习流程:Stage-1进行语言-图像对齐,Stage-1.5在85M数据上进行高质量知识中期预训练,Stage-2基于22M指令数据进行视觉指令对齐[20] - 实施离线并行数据打包技术,在85M规模预训练样本上实现最高约11倍的padding有效压缩,大幅提升有效token利用率[21][22] 性能与效率表现 - 在128张A800 GPU集群上,8B规模模型的Stage-1.5预训练仅需约3.7天完成,总预算控制在1.6万美元,体现高效训练能力[6][24] - 实验结果显示,LLaVA-OneVision在多项公开多模态基准上较Qwen2.5-VL展现出竞争性乃至更优性能[7] - 技术方案证明8B规模即可在更低token与算力成本下,对标乃至部分超越主流开源与部分闭源多模态模型,体现“高质量结构化数据+系统效率协同”的优势[25]