LLaVA-OneVision-1.5全流程开源，8B模型预训练只需4天、1.6万美元

LLaVA系列技术演进 - LLaVA于2023年提出，通过低成本对齐高效连接开源视觉编码器与大语言模型，实现了“看图-理解-对话”的多模态能力普及，显著缩小了与顶级闭源模型的差距，是开源多模态范式的重要里程碑[2] - LLaVA-1.5通过更大更干净的数据与高分辨率输入强化理解能力，LLaVA-NeXT进一步拓展了OCR、数理与多场景任务处理能力[5] - 系列后续分支发展为LLaVA-NeXT-Video处理时序视频和多帧推理，LLaVA-NeXT-Interleave支持交替多图文与跨图联合推理，最终在LLaVA-OneVision汇聚为统一接口，覆盖图像、文档、图表、多图、视频等多种模态[5] LLaVA-OneVision-1.5框架创新 - 引入RICE-ViT视觉主干支持原生分辨率与区域级细粒度语义建模，强化图表、文档、结构化场景的理解能力[7] - 延续紧凑的三阶段训练范式，避免冗长的课程学习，构建并强调“质量-覆盖-均衡”的85M预训练集与22M指令集[7] - 实现全链条透明开放，包括数据、训练与打包工具链、配置脚本、日志与可复现评测命令等细节，确保社区低成本复现与可验证拓展[7] 数据构建策略 - 预训练数据集规模达85M，融合COYO-700M、Obelics、DataComp-1B、LAION-CN、ImageNet-21K等8大异构来源，形成约2000万中文与6500万英文图文对[12] - 采用特征驱动的“概念均衡”策略，利用MetaCLIP编码器将图像与50万规模概念词嵌入共享向量空间，通过逆频加权重采样平坦化长尾分布[12] - 指令微调数据集规模22M，覆盖Caption、Chart & Table、Code & Math、Domain-specific等八大类别，通过多源聚合、格式统一、指令重写等流程保持类别与难度分布均衡[13] 训练优化技术 - 视觉编码器采用自研RICE-ViT，在4.5亿图像与24亿候选区域上训练，引入Region Cluster Discrimination机制显式建模局部实体与上下文关系[17] - 采用三阶段学习流程：Stage-1进行语言-图像对齐，Stage-1.5在85M数据上进行高质量知识中期预训练，Stage-2基于22M指令数据进行视觉指令对齐[20] - 实施离线并行数据打包技术，在85M规模预训练样本上实现最高约11倍的padding有效压缩，大幅提升有效token利用率[21][22] 性能与效率表现 - 在128张A800 GPU集群上，8B规模模型的Stage-1.5预训练仅需约3.7天完成，总预算控制在1.6万美元，体现高效训练能力[6][24] - 实验结果显示，LLaVA-OneVision在多项公开多模态基准上较Qwen2.5-VL展现出竞争性乃至更优性能[7] - 技术方案证明8B规模即可在更低token与算力成本下，对标乃至部分超越主流开源与部分闭源多模态模型，体现“高质量结构化数据+系统效率协同”的优势[25]