小米MiMo-VL VS 千问Qwen2.5-VL | 多模态模型实测
小米多模态模型MiMo-VL-7B性能评测 - MiMo-VL-7B模型在多项测试中表现优于Qwen2.5-VL-7B,尤其在表格识别和数学解题任务中[3][15][29][35] - Think版本模型性能显著优于No-Think版本,在表格识别准确率和数学解题正确率上差异明显[9][15][35][52] - 模型在简单表格识别任务中表现良好,但在中等复杂度表格识别上仍有不足[9][18][26] - 手写体OCR识别是明显短板,所有版本模型表现均不理想[46][52] - 图像识别基础能力完善,在基础视觉问答任务中表现稳定[61][64] 模型对比分析 - MiMo-VL-7B整体性能优于同参数规模的Qwen2.5-VL-7B,但与72B参数模型仍有差距[5][32][68] - 在数学解题任务中,RL-No-Think版本表现不稳定,出现明显错误[35][40] - 表格识别任务中,Think版本能更好处理合并单元格等复杂结构[15][18][26] - 模型继承了Qwen2.5-VL的ViT部分初始化参数,在视觉特征提取方面具有优势[4] 技术实现细节 - 测试采用vLLM框架在单卡4090上运行,支持最大长度12800[64][65] - 模型提供SFT和RL两个版本,均支持Think/No-Think模式[4][5] - 输入处理支持base64编码图像传输,可实现多模态交互[65][66] - 在语言理解任务中,Think模式能显著提升分析推理能力[53][56]