OpenUni

搜索文档
开源版MetaQuery来了!OpenUni用1.1B参数媲美BLIP3-o-8B,数据代码完全开源
机器之心· 2025-06-22 12:26
核心观点 - 南洋理工大学S-Lab和商汤科技推出开源多模态模型OpenUni,仅用1 1B参数达到8B模型性能,并开源代码、权重和数据[1][5] - OpenUni通过极简架构设计实现高效参数利用,在多项基准测试中表现优异[5][16] - 该模型为研究社区提供了清晰可复现的基线实现,促进多模态领域创新[18][20] 架构设计 - 采用256个可学习查询和6层轻量连接器桥接冻结的InternVL与SANA[2] - 相比MetaQuery的24层连接器大幅精简,仅保留6层transformer连接器[5] - 包含四个核心组件:可学习查询、冻结InternVL、6层ViT连接器、SANA扩散模型[5] 性能表现 - OpenUni-B-512(1 1B参数)GenEval达0 84分,与BLIP3-o-8B持平[5][16] - OpenUni-L-1024(3 1B参数)GenEval达0 86分,创开源统一模型最佳记录[16] - DPG-Bench测试中OpenUni-L-1024获83 08分,超越所有MetaQuery和BLIP3-o变体[16] 参数效率 - 连接器参数大幅减少:OpenUni-B仅54M,OpenUni-L仅225M[6] - 使用更小规模的MLLM和扩散模型(InternVL3-1B/2B+SANA-0 6B/1 6B)[6] - 训练数据量仅2300万图文对,低于同类模型的2500-3000万[6][7] 训练策略 - 两阶段训练:预训练(2300万图文对)+微调(6万图文对)[7][9] - 第一阶段冻结扩散模型,学习率1e-4,批次大小512[8][9] - 第二阶段解冻扩散模型联合优化,学习率1e-5,批次大小256[8][9] 开源贡献 - 完整开源模型权重、训练代码和2300万数据集[1][19] - 提供详细文档包含训练配置和复现指南[19] - 数据集包含LLM/MLLM重新标注的高质量caption[19] 应用局限 - 生成图像中渲染文字能力有限[19] - 最大模型基于2B MLLM和1 6B扩散模型,规模有待扩展[19] - 图像到图像生成功能将在未来版本支持[19]