核心观点 - 格灵深瞳推出的视觉基础模型Glint-MVT在性能和应用效果上表现优异,平均准确率比OpenCLIP高2.3%,比CLIP高1.1% [2] - Glint-MVT创新性地引入间隔Softmax损失函数,通过虚拟类别构造和噪声抑制技术提升模型泛化能力 [13][26][28][29] - 基于Glint-MVT开发的下游模型Glint-RefSeg和MVT-VLM在图像分割、视频分割和图像理解任务中达到SOTA水平 [14][19][20][21][24] - 公司坚持从业务需求出发的研发逻辑,专注于视觉技术垂直深耕,避免盲目追求参数规模 [37][38][39][44] 技术亮点 - 采用间隔Softmax损失函数,通过类别间隔和特征紧凑性约束提升语义区分能力 [26] - 利用图像文本特征聚类构造100万虚拟类别替代人工标注,扩大数据规模 [28] - 训练时随机选取10%负类中心,降低类别冲突干扰并减少计算量 [29] - Glint-RefSeg融合大语言模型与SAM解码器技术,实现自然语言驱动的精准分割 [32][33] 性能表现 - 线性探测测试显示模型基本功扎实,平均准确率优于主流对比模型 [2] - 在复杂场景下能精准分割被遮挡目标,处理手部等细微部位效果突出 [7][8][21] - 可准确识别刁钻角度的文字信息,如运动服号码和颜色 [15][16] - 视频分割任务中能稳定跟踪快速移动目标,不受视角变化影响 [20][21] 应用场景 - 图像理解与分割:支持自然语言指令完成复杂分割任务 [4][5][12] - 视频分析:实现对动态目标的持续跟踪与分割 [19][20] - 具身智能:能理解场景语义并做出合理判断 [22][24] - 行业解决方案:已应用于银行安防等实际场景 [42] 研发战略 - 坚持从产业痛点出发的技术路线,注重实际应用价值 [37][38] - 采用"特种兵"式发展策略,专注视觉领域垂直创新 [44] - 主动拥抱开源但拒绝跟风,通过开放创新构建生态 [40] - 技术团队兼具学术实力与实战经验,多次获得国际赛事冠军 [41][42] 未来规划 - 即将推出MVT v1.5和MVT v2.0版本,拓展多模态与视频理解能力 [35] - 持续聚焦视觉大模型与多模态技术研发 [41] - 通过开源共享促进技术创新与生态建设 [40]
巧妙!一个传统技术让国产视觉基础模型直接上大分