Workflow
多模态对齐
icon
搜索文档
LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元
机器之心· 2025-10-13 14:37
LLaVA系列技术演进 - LLaVA于2023年提出,通过低成本对齐高效连接开源视觉编码器与大语言模型,实现了“看图-理解-对话”的多模态能力普及,显著缩小了与顶级闭源模型的差距,是开源多模态范式的重要里程碑[2] - LLaVA-1.5通过更大更干净的数据与高分辨率输入强化理解能力,LLaVA-NeXT进一步拓展了OCR、数理与多场景任务处理能力[5] - 系列后续分支发展为LLaVA-NeXT-Video处理时序视频和多帧推理,LLaVA-NeXT-Interleave支持交替多图文与跨图联合推理,最终在LLaVA-OneVision汇聚为统一接口,覆盖图像、文档、图表、多图、视频等多种模态[5] LLaVA-OneVision-1.5框架创新 - 引入RICE-ViT视觉主干支持原生分辨率与区域级细粒度语义建模,强化图表、文档、结构化场景的理解能力[7] - 延续紧凑的三阶段训练范式,避免冗长的课程学习,构建并强调“质量-覆盖-均衡”的85M预训练集与22M指令集[7] - 实现全链条透明开放,包括数据、训练与打包工具链、配置脚本、日志与可复现评测命令等细节,确保社区低成本复现与可验证拓展[7] 数据构建策略 - 预训练数据集规模达85M,融合COYO-700M、Obelics、DataComp-1B、LAION-CN、ImageNet-21K等8大异构来源,形成约2000万中文与6500万英文图文对[12] - 采用特征驱动的“概念均衡”策略,利用MetaCLIP编码器将图像与50万规模概念词嵌入共享向量空间,通过逆频加权重采样平坦化长尾分布[12] - 指令微调数据集规模22M,覆盖Caption、Chart & Table、Code & Math、Domain-specific等八大类别,通过多源聚合、格式统一、指令重写等流程保持类别与难度分布均衡[13] 训练优化技术 - 视觉编码器采用自研RICE-ViT,在4.5亿图像与24亿候选区域上训练,引入Region Cluster Discrimination机制显式建模局部实体与上下文关系[17] - 采用三阶段学习流程:Stage-1进行语言-图像对齐,Stage-1.5在85M数据上进行高质量知识中期预训练,Stage-2基于22M指令数据进行视觉指令对齐[20] - 实施离线并行数据打包技术,在85M规模预训练样本上实现最高约11倍的padding有效压缩,大幅提升有效token利用率[21][22] 性能与效率表现 - 在128张A800 GPU集群上,8B规模模型的Stage-1.5预训练仅需约3.7天完成,总预算控制在1.6万美元,体现高效训练能力[6][24] - 实验结果显示,LLaVA-OneVision在多项公开多模态基准上较Qwen2.5-VL展现出竞争性乃至更优性能[7] - 技术方案证明8B规模即可在更低token与算力成本下,对标乃至部分超越主流开源与部分闭源多模态模型,体现“高质量结构化数据+系统效率协同”的优势[25]
Insta360最新全景综述:全景视觉的挑战、方法与未来
机器之心· 2025-10-04 11:38
文章核心观点 - 全景视觉与常规透视视觉存在根本性差异,直接将基于透视视觉开发的算法迁移到全景视觉往往失效 [6] - 文章首次以“透视-全景 gap”为主线,系统梳理了三大核心挑战、两条核心技术路线与未来方向展望 [6] - 旨在为研究者提供“按任务选解法”的指南,并为工程团队“按场景落地”提供清晰坐标 [6] 研究背景与动机 - 全景图像捕捉的是360°×180°的完整球面视域,而常规透视图像是大部分计算机视觉任务使用的标准输入 [6] - 全景视觉在虚拟现实、自动驾驶、具身智能等新兴应用中正成为不可或缺的研究方向 [6] 全景视觉的核心挑战 - **几何畸变**:球面展开到平面时,两极区域被严重拉伸,物体形状被破坏 [7] - **非均匀采样**:赤道像素密集、极区像素稀疏,同一物体在不同纬度分辨率差异明显 [7] - **边界连续性**:等距矩形投影(ERP)图像的左右边界在球面上相邻,但在二维图像上被分割,导致模型学习出现连续性问题 [7] 核心技术路线与策略适配 - **失真感知方法**:直接在ERP全景格式上建模,通过畸变设计、畸变图权重或自适应注意力来补偿极区问题,优势在于保留全局像素级别的语义对应且与主流架构高度兼容 [10][13] - **投影驱动方法**:通过立方体投影(Cubemap)、切平面投影(Tangent)等将球面转换为多个畸变较小的子视图,优势在于有效缓解极区畸变并能直接复用透视模型和大规模预训练网络 [13] - **策略适配**:失真感知方法更适配全局语义一致性的任务(如超分辨率、修复、分割、检测),而投影驱动方法更适配强调局部几何精度的任务(如深度估计、光流、关键点匹配) [13] 全景视觉任务工具箱 - 文章覆盖20+代表性任务,并提供了横向跨任务对照表,将任务按四大板块归类:增强与评估、理解、多模态、生成 [14] - 新范式加速渗透,包括Diffusion/生成式模型在文生图/视频、图像补全、新视角合成方向快速涌现,以及3D高斯泼溅(3DGS)在高效高保真渲染中的应用 [14][15] - 多模态对齐,尤其是音频、文本、LiDAR与全景的对齐成为新的研究热点 [14][15] 全景视觉的未来发展方向 - **数据瓶颈**:缺少大规模、跨任务、跨场景的标准360°数据,真实场景高质量标注成本高,多模态资源不足制约研究进程 [21] - **模型范式**:需将基础模型迁移到全景视觉并设计参数高效的专家模块,多模态对齐和全景生成是核心难点 [21] - **下游应用**:关键场景包括空间智能与自动系统(具身智能、自动驾驶)、XR与沉浸式交互、三维重建与数字孪生以及广泛的行业化社会应用 [21]
2025年中国多模态大模型行业核心技术现状 关键在表征、翻译、对齐、融合、协同技术【组图】
前瞻网· 2025-06-03 13:12
多模态大模型核心技术-表征 - 表征学习是多模态任务的基础,涉及处理异质数据结合、不同噪声等级处理及模态缺失问题 [1] - Transformer出现前,CV领域主要使用CNN,NLP领域主要使用LSTM,多模态工作多采用异质网络单独提取特征后联合训练 [1] - Transformer统一多模态任务成为可能,2019年后基于Transformer的多模态预训练模型大量涌现 [1] 多模态大模型核心技术-翻译 - 跨模态翻译旨在将源模态映射到目标模态,如图像生成描述或文本生成图像 [2] - 基于语法模板的方法通过预设模板插入检测结果完成翻译,如图像描述中的who/what/whom/place插槽 [2] - 编码-解码器结构将源模态编码为隐特征后解码生成目标模态,如图像描述中CNN+RNN组合 [2] - 连续性生成针对时间严格对齐的流数据任务,如文本合成语音采用CNN并行预测+CTC loss [3] 多模态大模型核心技术-对齐 - 对齐用于发现不同模态子元素间关联性,如visual grounding任务 [7] - 显式对齐通过动态时间扭曲(DTW)、CCA等方法衡量相似性,深度学习方法逐渐流行 [7] - 隐式对齐通过注意力机制等解决潜在表示问题,降低对编码器的要求 [8] - 当前多模态对齐处于初期阶段,侧重人类指令对齐但忽略高层次价值整合 [8] 多模态大模型核心技术-融合 - 融合通过结合多模态数据增强性能,应用领域包括语音识别、情感识别和医学图像分析 [11] - 早期融合在特征层面合并模态,晚期融合在决策层面结合结果,混合融合综合两者优势 [11] - 神经网络成为主流融合方式,但图形模型和多核学习在数据有限或需可解释性时仍适用 [12] 多模态大模型核心技术-协同 - 协同学习利用一种模态数据训练另一种模态模型,分为并行、非并行和混合三类 [14] - 并行学习要求模态数据直接关联(如音视频同源),非并行学习通过类别重叠实现 [14][15] - 混合协同通过共享模态连接数据,已在视觉分类、动作识别和语义相似度估计中应用 [15]