3D-Resampler架构
搜索文档
8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉
量子位· 2025-09-23 19:01
模型发布与市场反响 - 行业首个具备“高刷”视频理解能力的多模态模型MiniCPM-V 4.5技术报告正式发布 [1] - 模型在HuggingFace和ModelScope平台的合计下载量已超过22万次 [4] - 模型开源后广受社区好评,并登上HuggingFace Trending榜单第二名 [3] 核心技术突破 - 提出统一的3D-Resampler架构,实现最高96倍的视觉压缩率,将6个连续视频帧压缩为仅64个视觉Token [8][11] - 采用面向文档的统一OCR和知识学习范式,摆脱对外部解析工具的依赖,在OmniDocBench上取得通用MLLM中的最好表现 [8][26] - 运用可控混合快速/深度思考的多模态强化学习策略,在节省30%训练开销的同时,推理耗时仅为同规格深度思考模型的42.9%-68.2% [9][29] 性能评测表现 - 模型参数量为8B,在OpenCompass综合评测中取得77.0的平均分,超越GPT-4o-latest和Qwen2.5-VL-72B等模型 [2][34] - 在Video-MME视频理解评测集上,时间开销仅为同级模型的1/10,显存占用相比Qwen2.5-VL7B减少至46.7% [8][36] - 在幻觉抑制方面表现优异,ObjHalBench的CHAIRs指标为9.3,优于对比模型 [33] 效率与成本优势 - 统一的3D-Resampler架构实现了图像与视频处理的统一编码,从2D扩展至3D仅需轻量化的SFT阶段,极大降低训练成本 [12][14] - 在OpenCompass评测中,模型以7.5小时的推理时间获得77.0的分数,优于其他同规模模型所需11.0小时和17.5小时 [37] - 高密度视频压缩技术使模型在处理视频时具有显著的效率优势,时间开销大幅降低 [36] 行业影响与学术认可 - MiniCPM-V系列模型由清华大学自然语言处理实验室和面壁智能联合开发,系列模型总下载量超过1300万次 [49] - 相关技术论文发表于国际著名期刊Nature Communications,谷歌学术引用超过600次 [49] - 系列模型曾入选HuggingFace 2024年度最受欢迎和下载开源模型榜单、中关村论坛年会10项重大科技成果等 [49]