Workflow
ICCV25 Highlight|格灵深瞳RICE模型狂刷榜单,让AI「看懂」图片的每个细节

公司技术演进与核心观点 - 格灵深瞳公司灵感团队自研的视觉模型基座RICE(MVT v1.5)在多项视觉任务中表现卓越,并因其在顶级学术会议ICCV25上的突出表现获得Highlight荣誉[2] - MVT系列模型的核心观点是“margin表征代表语义”,致力于通过海量数据集实现更准确的视觉语义表征,其技术灵感来源于公司在人脸识别算法领域的深厚积累[5] - 新一代模型RICE(MVT v1.5)洞悉到图像信息通常由多种无/弱关联视觉元素拼接而成,因此转向对图片内不同视觉元素进行监督学习,这更符合人类处理图像信息的方式,并有利于目标检测、分割等下游任务[9] 模型技术方法与创新 - 在RICE的开发中,团队使用SAM(Segment Anything Model)对潜在区域级对象进行搜索,从4亿(400M)图像中提取出20亿(2B)个图像区域级对象,并将其聚类为一百万个区域级语义类别标签[9] - 针对图像中的字符块,团队使用PaddleOCR从5000万(50M)图片中提取出4亿(400M)字符级别候选区域,并直接使用字符作为类别标签[9] - 训练过程中,团队提出Region Attention Layer模块以加速训练,该模块利用完整图片的class embedding作为Q,对区域级视觉特征进行QKV注意力计算,从而得到区域类别语义进行损失计算[11] - 与基于全图语义信息编码的MVT v1.1相比,RICE在训练过程中有效提升了图片内部视觉特征的差异性,表明视觉编码器对图片内部元素的语义表征变得更加丰富[13] 下游任务性能验证 - 在检测任务上,RICE在经典的COCO、LVIS以及包含100种不同场景检测任务的Roboflow100上进行了验证,在线性探测(Linear Prob)能力上,与其它先进视觉基座相比,在几乎所有指标上均取得了最佳结果[17] - 在多模态分割任务上,RICE结合LLaVA系列框架和LISA方法进行训练,在refCOCO系列的所有子集上均获得显著提升,例如在LLaVA-1.5框架下,相比CLIP基座,各项指标平均提升约2.00个百分点;在LLaVA-NeXT框架下,相比CLIP平均提升约2.45个百分点,相比前代MLCD平均提升约1.30个百分点[18][19] - 在视频追踪任务上,尽管RICE是基于图片训练,但其ROPE位置编码方式和跨图片的区域级对象聚类方法,使其能处理不同尺寸视频输入并对不同帧中的相同目标进行持续追踪,在4个不同的视频追踪相关任务上均取得领先表现[20] - 在多模态问答任务上,以RICE作为视觉编码器的多模态模型在多个基准测试中表现优异,尤其在OCR相关任务上优势显著,例如在CRBench上,RICE-ViT (ViT-L-14-560px) 得分达到53.2,优于对比的CLIP(38.9)、MLCD(43.5)等模型[23][24] - RICE作为视觉编码器被应用于LLaVA-OneVision-1.5,使其成为与Qwen2.5-VL系列可比的全开源优秀工作,在多项基准测试中展现出竞争力,例如在MMBench上,LLaVA-OV-1.5 (7B) 得分84.1,高于Qwen2.5-VL (7B) 的81.0[25] 未来发展方向 - MVT系列下一步将开启v2.0版本的工作,重点转向视频编码,认为视频是对真实世界的直接记录,蕴含大量可挖掘信息,是通往AGI(通用人工智能)的重要路径,将继续沿差异化解语义表征的路线前进[27]