Workflow
LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元
机器之心·2025-10-13 14:37

LLaVA 用低成本对齐打通「 视觉编码器 + 大语言模型」起步,LLaVA‑1.5 以更大更干净的数据与高分辨率输入强化理解,LLaVA‑NeXT 拓展 OCR / 数理与多场景 任务;随后分支为 LLaVA‑NeXT‑Video 处理时序视频、多帧推理,及 LLaVA-NeXT-Interleave 支持交替多图文与跨图联推;最终在 LLaVA‑OneVision 汇聚为统一接 口,覆盖图像 / 文档 / 图表 / 多图 / 视频,兼顾效果与效率。 LLaVA 于 2023 年提出,通过低成本对齐高效连接开源视觉编码器与大语言模型,使「 看图 — 理解 — 对话 」的多模态能力在开放生态中得以普及,明显缩小了 与顶级闭源模型的差距,标志着开源多模态范式的重要里程碑。 尽管多模态对齐的接口与架构趋于收敛,真正「 可复现 」的开源路径仍与「 仅开放权重 」存在间距。Qwen2.5‑VL、InternVL3.5 在 OCR、文档理解、数理与跨图 推理上树立高基线,但完整的数据清单、清洗与混合比例,以及对齐 / 采样与训练日程多为部分披露,难以端到端重现。Molmo 以更干净的数据流水线与精细化 设计,在多项评测 ...